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本 教材 的 编写 和 出 版 得 到 了 美国 国家 科学 基金 会 的 大 力 支持 ， 并 经 过 美国 许多 大 学 的 授 
课 枪 验 。 本 书 覆盖 并 行程 序 设计 的 众多 技术 ， 将 重点 放 在 使 用 免费 获得 的 并 行 软件 工具 在 联 
网 计算 机 上 执行 的 并 行程 序 上 ， 所 涉及 的 应 用 是 独立 于 系统 的 。 从 顺序 程序 设计 开始 进行 自 
然 扩 充 ， 介 绍 并 行程 序 设计 技术 。 拓 展 了 消息 传递 并 行程 序 设计 的 基本 技术 ， 并 探究 了 在 数 
值 和 非 数值 领域 特定 问题 的 算法 学 习 本 书 并 不 需要 并 行程 序 设计 的 任何 预备 知识 ， 读 者 只 
需 具 有 C 程 序 设计 知识 。 


本 书 特点 

e 使 用 MPI 伪 代码 描述 算法 ， 有 助 于 在 不 同 的 程序 设计 工具 上 实现 。 

e 详细 介绍 共享 存储 器 程序 设计 ， 包 括 Pthread 和 OpenMP， 辅 助 学 生 完成 共享 存储 
器 程序 设计 的 课外 作业 。 

e 每 章 末尾 包含 大 量 习题 ， 其 中 “现实 生活 习题 ”非常 有 趣 ， 既 可 增强 学 习 兴 趣 又 能 
提高 并 行程 序 设计 技巧 ， 并 且 这 些 习 题 的 求解 无 需 专 门 的 数学 知识 。 

e 配合 一 个 综合 的 教师 指导 网 站 ， 其 中 包括 : 实例 、 课 外 作业 以 及 使 用 MPI 软 件 的 畏 
导 材 料 等 ， 网 址 为 : www.cs.uncc.edu/par_prog。 
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本 书 系统 介绍 并 行程 序 设计 原理 及 应 用 。 除 介绍 常用 的 一 些 算 法 范例 ， 包 括 分 治 、 
流水 、 同 步 计算 、 主 从 及 工作 字 ， 还 介绍 了 一 些 常用 的 经 典 数值 和 非 数值 算法 ， 如 排序 、 
和 矩阵 相 乘 、 线 性 方程 组 求解 、 图 像 处 理 中 的 预 处 理 和 相应 的 变换 、 搜 索 和 优化 (包括 遗 
传 算法 ) 等 。 第 2 版 新 增 了 机 群 计算 和 使 用 机 群 的 内 容 ， 对 如 何 打造 专用 和 通用 的 机 群 以 
及 设置 相应 的 程序 设计 环境 做 了 较为 详尽 的 介绍 。 章 后 包含 大 量 习题 ， 其 中 “现实 生活 
习题 ”非常 实用 ， 既 可 增强 学 习 兴 趣 ， 又 可 提高 并 行程 序 设 计 技巧 。 

本 书 可 作为 高 等 院 校 计算 机 专业 高 年 级 本 科 生 或 研究 生 的 教材 ， 对 从 事 高 性 能 计算 
的 科技 工作 者 也 是 一 本 很 有 价值 的 参考 书 。. 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 

， 划 了 研究 的 范畴 ， 还 揭 殉 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 白 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 199%8 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall，Addison-Wesley ，McGraw-Hill ，Morgan Kaufmann 等 扯 界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum ，Stroustrup ，Kernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 皮 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 和 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 减 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 处 书 ” 已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines ”系列 组 成 
“全 美 经 典 学 习 指 导 系 列 "。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科 学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 蛤 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航 空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 ”"， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 

。 的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford，U.C. Berkeley ，C. M. U. 等 世界 





IV 


名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工 程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ,而且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 豪 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 党 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ,但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 





电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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第 2 版 译 者 序 


自 本 书 第 1 版 出 版 以 来 ， 联 网 计算 机 ， 特 别 是 以 消息 传递 为 基础 的 联网 机 群 的 程序 设计 技 
术 有 了 长 足 的 进步 ， 机 群 计算 技术 已 成 为 经 济 有 效 地 获取 高 性 能 计算 能 力 的 主流 技术 ， 相 应 
的 MPI 程 序 设计 环境 也 已 逐步 成 为 主流 的 销 息 传递 程序 设计 环境 ， 而 PVM 程 序 设计 环境 则 逐 
渐 淡 出 。 

共享 存储 器 程序 设计 在 经 历 了 较 长 时 间 的 发 展 后 也 终于 有 了 像 OpenMP 那 样 为 各 界 共同 接 
受 的 共享 存储 器 程序 设计 标准 ， 它 在 以 SMP 作 为 基本 结 点 的 高 性 能 并 行 机 系统 的 并 行程 序 设 
计 中 起 着 关键 的 作用 。 将 消息 传递 程序 设计 和 共享 存储 器 程序 设计 两 者 有 机 结合 的 分 布 式 共 
享 存储 器 程序 设计 将 是 未 来 机 群 程序 设计 的 发 展 方向 。 本 书 第 2 版 的 内 容 变动 正 是 对 这 些 发 展 
趋势 的 及 时 反映 。 

长 期 以 来 ,计算 机 体系 结构 课程 缺少 相应 的 实验 素材 ， 第 2 版 新 增 了 机 群 计算 和 使 用 计 
算 机 机 群 的 内 容 ， 对 如 何 打造 专用 和 通用 的 计算 机 机 群 以 及 设置 相应 的 程序 设计 环境 做 了 较 
为 详尽 的 介绍 ， 译 者 相信 这 将 为 开设 网 络 环境 下 的 计算 机 体系 结构 实验 课程 打下 良好 的 
基础 。 

本 书 第 1 版 的 翻译 工作 由 陆 佬 达 教 授 负 责 和 组 织 ， 并 翻译 了 目录 、 序 、 第 1 ~ 3 章 ， 以 及 
第 11 和 12 章 ， 曾 志 勇 翻译 了 第 5 章 ， 张 建 翻译 了 第 7 章 ， 支 小 莉 翻 译 了 第 6 章 ， 徐 苦 文 翻译 了 第 
10 章 ， 钟 嵘 翻译 了 第 8 章 ， 吴 欣 翻 译 了 第 9 章 ， 汤 勇平 翻译 了 第 4 章 。 译 稿 全 文 由 陆 佬 达 教 授 作 
了 校对 。 

第 2 版 的 翻译 和 审 校 由 陆 绪 达 教 授 负责 ， 翻 译 了 新 增 的 内 容 (1.2 节 提高 计算 速度 的 漆 力 ， 
1.4 机 和 群 计算 ，2.2 节 使 用 计算 机 机 群 ，6.4 节 部 分 同步 方法 ，8.4 节 并 行程 序 设 计 语 言 和 构造 ， 
8.5 节 OpenMP，8.6 节 性 能 问题 ， 第 9 章 分 布 式 共 享 存 储 器 系统 及 其 程序 设计 ，10.3 节 在 专用 网 
络 上 排序 ，10.4 碳 其 他 排序 算法 ， 以 及 附录 C 一 一 OpenMP 命 令 、 库 函数 以 及 环境 变量 及 各 章 
新 增 的 习题 等 )， 重 译 了 各 章 中 改写 的 内 容 ， 并 仔细 校对 了 删除 的 内 容 。 

本 书 是 有 关 使 用 联网 计算 机 进行 并 行 计算 的 一 本 很 实用 的 教科 书 ， 是 两 位 教授 多 年 教学 
和 科研 工作 的 结晶 。 作 者 用 此 教材 引导 美国 大 学 一 年 级 学 生 进 行 并 行程 序 设计 实践 ， 具 有 超 
前 意识 ， 为 此 获得 美国 国家 科学 基金 会 的 资助 ， 使 此 书 得 以 出 版 。 我 们 翻译 此 书 的 宗旨 是 想 
促使 并 行 /分 布 计算 ， 特 别 是 使 用 联网 计算 机 的 并 行 /分 布 计算 ， 在 中 国 的 普及 和 发 展 ， 尤 其 是 
在 高 等 院 校 中 的 普及 和 发 展 。 

本 书 除 介绍 了 常用 的 一 些 算法 范例 ， 包 括 分 治 、 流 水 、 同 步 计算 、 主 从 及 工作 池 等 ， 还 
介绍 了 一 些 常 用 的 经 典 数 值 和 非 数值 算法 ， 如 排序 、 和 矩阵 相 乘 、 线 性 方程 组 求解 、 图 像 处 理 
中 的 预 处 理 和 相应 的 变换 、 搜 索 和 优化 (包括 遗传 算法 ) 等 ， 这 是 本 书 的 一 大 特色 。 读 者 掌 
所 了 这 些 算法 范例 和 经 典 算法 后 就 可 为 并 行程 序 设 计 打 下 良好 基础 。 书 中 每 一 章 后 面 均 附 有 
习题 ， 除 与 每 章 内 容 有 关 的 习题 之 外 ， 还 有 不 少 习题 源 自 现实 生活 ， 既 富有 启发 性 ， 又 具有 
趣味 性 ， 应 该 说 这 是 本 书 的 另 一 大 特色 。 学 习 本 书 的 唯一 要 求 是 具有 C 语 言 的 程序 设计 知识 ， 
对 并 行程 序 设计 知识 没有 要 求 。 对 算法 的 描述 采用 MPI 伪 代码 ， 并 允许 使 用 不 同 的 程序 设计 
工具 加 以 实现 。 
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本 书 可 作为 计算 机 专业 本 科 生 高 年 级 选修 课程 的 教材 ， 也 可 作为 研究 生 的 学 位 或 非 学 位 
课程 的 教材 ， 对 在 其 他 各 个 专业 领域 中 从 事 高 性 能 计算 的 科技 工作 者 也 是 一 本 很 有 价值 的 参 
考 书 。 

值 本 书 第 2 版 出 版 之 际 ， 译 者 谨 向 机 械 工业 出 版 社 华章 公司 的 策划 和 编辑 人 员 表示 深切 的 
谢意 。 

由 于 翻译 时 间 较 仓促 ， 再 加 有 的 英语 术语 国内 没有 统一 的 译 法 ， 故 翻译 中 的 错误 或 不 妥 
之 处 在 所 难免 ， 敬 请 读者 不 音 指 正 。 
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及 其 编程 环境 ， 机 群 计算 (包括 体系 结构 及 中 间 件 )、 遗 传 和 进化 算法 在 映射 和 调度 中 的 应 用 、 
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前 言 

本 教科 书 的 目的 是 介绍 并 行程 序 设计 技术 。 并 行程 序 设计 使 用 多 计算 机 或 多 个 内 部 处 理 
器 的 计算 机 来 求解 问题 ， 它 比 使 用 单 台 计 算 机 的 计算 速度 要 快 得 多 。 它 也 为 求解 更 大 规模 的 
问题 提供 了 机 会 ， 这 些 问题 需要 更 多 的 计算 步 或 更 大 存储 容量 需求 ， 之 所 以 能 满足 后 一 要 求 ， 
是 因为 多 计算 机 和 多 处 理 机 系统 通常 比 单 计算 机 有 更 大 的 总 存储 容量 。 在 本 书 中 ， 我 们 讨论 
的 重点 是 使 用 多 计算 机 进行 并 行程 序 设 计 ， 它 们 之 间 的 通信 是 通过 发 送 消 息 来 完成 的 ， 从 而 
出 现 了 消息 传递 并 行程 序 设计 的 术语 。 我 们 所 使 用 的 计算 机 可 以 是 不 同 的 类 型 (PC、SUN、 
SGI 等 )， 但 它们 必须 由 网 络 进行 互联 ， 此 外 还 必须 有 一 个 软件 环境 以 在 计算 机 间 进 行 消息 传 
递 。 适 当 联网 的 计算 机 (或 者 在 网 络 中 或 者 具有 互联 的 能 力 的 计算 机 ) 可 广泛 地 作为 学 生 的 
基本 计算 平台 ， 以 便 避 免 使 用 特殊 设计 的 多 处 理 机 系统 。 为 实现 消息 传递 并 行程 序 设计 ， 可 
使 用 几 种 软件 工具 ， 特 别 是 几 个 MPI 的 实现 方案 ， 它 们 均 可 免费 得 到 。 这 些 软件 也 可 在 特殊 
设计 的 多 处 理 机 系统 上 使 用 ， 如 果 这 些 系 统 可 以 使 用 的 话 。 我 们 所 讨论 的 技术 和 应 用 是 独立 
于 系统 的 ， 因 本 书 非常 实用 。 

第 2 版 ”自从 本 书 第 1 版 出 版 后 ， 使 用 互联 的 计算 机 作为 高 性 能 计算 平台 已 很 普遍 ， 并 用 
术语 “机 群 计算 ”来 描述 这 类 计算 。 通 常 在 机 群 中 使 用 的 计算 机 是 “商品 ”计算 机 ， 即 在 家 
庭 和 办 公 室 中 使 用 的 低 价 个 人 计算 机 。 虽 然 本 教科 书 的 重点 在 于 使 用 多 计算 机 和 多 处 理 机 作 
为 高 性 能 计算 这 一 宗旨 没有 改变 ， 但 我 们 对 第 1 章 做 了 修订 以 反映 这 种 商品 机 群 的 趋势 ， 并 远 
离 专门 设计 的 、 自 含 的 多 处 理 机 。 在 第 1 版 中 ， 我 们 叙述 了 PVM 和 MPI， 并 为 它们 各 提供 了 
一 个 附录 ， 但 是 一 般 在 课堂 上 只 使 用 其 中 一 个 。 在 第 2 版 中 ， 我 们 从 教科 书 中 删 去 了 有 关 PVM 
的 详尽 细节 ， 因 为 现在 的 MPI 是 一 个 被 广泛 接受 的 标准 ， 并 提供 了 更 为 强大 的 机 制 。 如 果 读 
者 愿意 ， 仍 可 使 用 PVM， 我 们 在 网 页 中 仍 提供 对 它 的 支持 。 

消息 传递 程序 设计 有 某 些 缺点 ， 特 别 是 要 求 程序 员 显 式 地 说 明 消息 传 递 应 在 程序 的 何 处、 
何 时 出 现 以 及 要 发 送 什么 。 数 据 不 得 不 通过 相当 慢 的 消息 发 送 给 需要 该 数据 的 计算 机 。 有 些 
学 者 将 这 种 类 型 的 程序 设计 比 作 汇编 语言 的 程序 设计 ， 即 使 用 计算 机 内 部 语言 编程 ， 这 是 一 
种 非常 低级 和 麻烦 的 程序 设计 方法 ， 除 非 在 非常 特殊 的 情况 下 ， 一 般 不 采用 这 种 方法 来 编程 。 
另 一 种 程序 设计 模型 是 共享 存储 器 模型 。 在 第 1 版 中 ， 共 享 存储 器 程序 设计 适用 于 具有 多 个 内 
部 处 理 器 和 一 个 公共 共享 存储 器 的 计算 机 。 这 种 共享 存储 器 多 处 理 机 现在 已 变 得 非常 经 济 有 
效 和 普遍 ,特别 是 双 处 理 器 和 四 处 理 器 系统 。 线 程 的 程序 设计 是 用 Pthread 描 述 的 。 在 第 2 版 中 ， 
保留 了 共享 存储 器 的 程序 设计 ， 并 增加 了 许多 新 的 内 容 ， 包 括 共享 存储 器 的 编程 性 能 和 
OpenMP，OpenMP 是 比 Pthread 有 更 高 层次 的 、 基 于 线程 的 共享 存储 器 程序 设计 的 标准 。 任 何 
实践 并 行程 序 设计 的 宽 范围 的 课程 将 包括 共享 存储 器 的 程序 设计 ， 因 而 具有 OpenMP 程 序 设 计 
经 验 是 非常 合意 的 。 在 新 的 附录 中 ， 增 加 了 OpenMP。 对 教育 机 构 来 讲 ， 只 需 用 低廉 的 价格 就 
可 获得 OpenMP 编 译 器 。 

使 用 机 群 是 重点 ， 因 此 增加 了 有 关 在 机 群 上 进行 共享 存储 器 程序 设计 的 新 的 一 章 。 使 用 
合适 的 分 布 式 共 享 存 储 器 (DSM) 软件 就 可 在 机 群 上 实现 共享 存储 器 模型 。 分 布 式 共享 存储 
器 程序 设计 试图 获得 机 群 可 扩展 性 的 优点 和 共享 存储 器 的 长 处 。 提 供 DSM 环 境 的 软件 可 免费 
得 到 ， 而 我 们 将 展示 学 生 能 编写 他 们 自己 的 PSM 系 统 (已 经 有 若干 学 生 做 到 了 这 一 点 )。 应 该 
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指出 的 是 DSM 系 统 存 在 一 些 性 能 方面 的 问题 。 不 能 期 待 软件 DSM 的 性 能 会 如 同 在 一 个 共享 存 
储 器 多 处 理 机 上 真正 的 共享 存储 器 程序 设计 那样 好 。 但 一 个 大 型 的 、 可 扩展 的 共享 存储 器 多 
处 理 机 比 起 商品 机 群 来 要 昂贵 得 多 。 1 

第 2 版 中 的 其 他 变化 是 有 关机 群 程序 设计 的 。 在 第 6 章 中 增加 了 部 分 同步 计算 的 内 容 ， 这 
在 机 群 中 是 特别 重要 的 ， 因 为 在 机 群 中 同步 很 花 时 间 ， 因 此 应 尽量 避免 。 我 们 对 第 10 章 的 排 
序 算法 内 容 作 了 修订 和 补充 ， 包 括 适 用 于 机 群 的 其 他 排序 算法 。 我 们 还 在 本 书 的 第 一 部 分 增 
加 了 对 算法 的 分 析 ， 包 括 计算 /通信 比 ， 因 为 这 对 消息 传递 计算 非常 重要 。 此 外 ， 还 增加 了 一 
些 习 题 。 为 保持 合理 的 篇 幅 ， 在 附录 中 删 去 了 并 行 计 算 模 型 。 

曾 将 本 教科 书 的 第 1 版 定位 为 主要 用 作 大 学 本 科 生 的 并 行程 序 设 计 课 程 的 教科 书 。 但 我 们 
发 现 某 些 单位 也 将 它 作 为 研究 生 课程 的 教科 书 。 我 们 也 已 将 它 既 作为 高 年 级 本 科 的 也 作为 研 
究 生 课程 的 教科 书 ， 本 书 适合 作为 研究 生 的 初级 课程 。 作 为 研究 生 的 课程 ， 应 包括 更 先进 的 
内 容 ， 例 如 DSM 的 实现 和 快速 伍 里 叶 变 换 ， 并 选择 有 更 高 要 求 的 程序 设计 研究 作业 。 

内 容 编排 ”如 第 1 版 一 样 ， 本 教科 书 分 为 两 部 分 。 第 一 部 分 现在 包括 第 1 章 到 第 9 章 ， 而 第 
二 部 分 现在 包括 第 10 章 到 第 13 章 。 在 第 一 部 分 中 ， 将 讨论 并 行程 序 设计 的 基本 技术 。 在 第 ! 章 
中 ， 对 并 行 计算 机 的 概念 现在 更 注重 机 群 的 介绍 。 第 2 章 概述 消息 传递 例 程 ， 特 别 是 MPI 软 件 。 
从 理论 和 实践 两 方面 讨论 如 何 评估 消息 传递 程序 的 性 能 。 第 3 章 令 述 理想 的 并 行 化 问题 ， 即 易 
并 行 计算 ， 在 这 种 计算 中 ， 问 题 可 被 分 割 成 独立 部 分 。 事 实 上 ， 许 多 重要 应 用 都 可 以 这 种 方 
式 加 以 并 行 化 。 第 4、5、6、7 各 章 叙 述 了 各 种 程序 设计 策略 (分割 和 分 治 、 流 水 线 、 同 步 计 
算 、 蜡 步 计算 和 负载 平衡 )。 第 一 部 分 的 这 几 章 涉及 了 并 行程 序 设计 的 所 有 基本 内 容 ， 并 通过 
对 消息 传递 和 对 简单 问题 的 求解 来 示范 技术 ， 而 这 些 技术 的 本 身 可 在 许多 场合 用 来 求解 问题 。 
通常 我 们 首先 给 出 顺序 的 示范 代码 ， 然 后 再 给 出 并 行 的 伪 代 码 。 一 般 来 讲 ， 基 本 算法 在 本 质 
上 是 并 行 的， 而 顺序 版 本 “不 自然 ”地 使 用 循环 将 其 串 行 化 。 当 然 ， 某 些 算法 为 了 高 效 地 进 
行 并 行 求解 必须 进行 重 构 ， 但 这 种 重 构 并 不 是 立即 就 能 看 清 的 。 第 8 章 叙 述 了 共享 存储 器 程序 
设计 ， 其 中 包括 了 广泛 采用 的 IEEE 标 准 系统 Pthread 以 及 OQpenMP。 在 该 章 中 ， 还 增加 了 有 关 
定时 和 性 能 问题 的 全 新 的 一 节 内 容 。 新 增 的 一 章 是 有 关 分 布 式 共享 存储 器 程序 设计 的 ， 它 被 
放 在 共享 存储 器 这 一 章 之 后 ， 以 此 结束 第 一 部 分 ， 在 此 之 后 的 各 章 已 重新 编号 。 

许多 并 行 计 算 问 题 具 有 一 些 专 门 开发 的 算法 ， 在 第 二 部 分 中 所 研究 的 专用 算法 涉及 非 数 
值 和 数值 范畴 。 在 学 习 第 二 部 分 时 ， 将 需要 一 些 数 学 概念 ， 如 和 抑 阵 。 在 第 二 部 分 中 涉及 的 主 
题 包括 排序 (第 10 章 )， 数 值 算法 、 和 矩阵 乘法 、 线 性 方程 组 、 偏 微分 方程 (第 11 章 )， 图 像 处 
理 (第 12 章 ) 以 及 搜索 和 优化 (第 13 章 )。 图 像 处 理 特别 适合 于 并 行 化 ， 因 此 在 第 二 部 分 中 将 
其 作为 饶 有 兴趣 的 一 个 应 用 ， 专 门 用 一 章 加 以 介绍 ， 这 种 应 用 对 许多 研究 项 目 有 很 大 的 潜在 
参考 价值 。 在 图 像 处 理 这 一 章 中 ， 还 讨论 了 所 涉及 的 快速 仁 里 叶 变 换 ， 这 一 重要 变换 还 被 用 
于 许多 其 他 领域 中 ， 包括 信 号 处 理 和 语音 识别 。 

在 每 章 的 末尾 列 出 了 许多 “现实 生活 ”习题 ， 其 中 绝 大 部 分 源 自 实际 生活 。 这 些 习 题 的 
求解 无 需 专 门 的 数学 知识 ， 它 是 本 书 的 特色 之 一 ; 这 些 习 题 有 助 于 开发 使 用 并 行程 序 设计 技 
术 的 技巧 ， 而 不 是 简单 地 学 习 如 何 去 求 解 像 数 的 排序 或 矩阵 相 乘 那样 的 专门 问题 。 

预备 知识 ”学 习 第 一 部 分 所 需 的 准备 是 有 关 顺 序 程序 设计 的 知识 ， 这 可 通过 使 用 C 语 言 学 
到 。 教 科 书 中 的 并 行 伪 代 码 是 用 类 似 C 的 赋值 语句 和 控制 流 语句 编写 的 。 但 是 ， 如 果 学 生 只 有 
Java 知 识 应 不 难 理解 伪 代 码 ， 因 为 这 些 语句 的 语法 与 Java 是 类 似 的。 在 掌握 了 基本 的 顺序 程序 
设计 后 可 立即 进行 第 一 部 分 的 学 习 。 在 第 一 部 分 中 的 许多 作业 无 需 专门 的 数学 知识 就 可 尝试 
求解 。 如 果 作 业 需 使 用 MPI， 则 可 用 有 具有 MPI 消 息 传递 库 调用 的 C 或 C++ 语言 来 编写 程序 。 在 
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附录 A 中 ， 对 如 何 进行 具体 的 库 调用 做 了 说 明 。 也 可 以 使 用 Java， 虽 然 学 生 只 具有 Java 知 识 ， 
他 们 应 没有 任何 困难 用 C/C++ 来 完成 程序 设计 作业 。 

在 第 二 部 分 中 ， 学 习 排 序 这 一 章 时 ， 假 定 学 生 已 在 学 习 数据 结构 或 顺序 程序 设计 课程 时 
掌握 了 顺序 排序 的 知识 。 学 数值 算法 这 一 章 时 ， 学 生 应 具有 相应 的 数学 背景 ， 这 些 背景 是 高 
年 级 计算 机 科学 或 工程 系 的 学 生 应 该 掌握 的 。 | 

课程 结构 教师 可 灵活 地 介绍 本 书 的 内 容 ，、 没 有 必要 包括 所 有 内 容 。 事 实 上 ， 用 一 个 学 期 
是 不 可 能 讲 完 整 本 书 的 内 容 的 。 宜 从 第 一 部 分 中 选择 一 部 分 主题 作为 一 般 顺 序 程序 设计 课程 
的 补充 。 我 们 以 这 种 方式 指导 一 年 级 学 生 进行 并 行程 序 设计 。 在 这 种 环境 下 ， 本 书 便 是 对 上 顺 
序 程序 设计 教科 书 的 补充 。 整 个 第 一 部 分 及 第 二 部 分 的 一 部 分 合 在 一 起 ， 可 作为 高 年 级 本 科 
生 或 研究 生 初 期 的 并 行程 序 设计 /计算 课程 ， 我 们 以 这 种 方式 使 用 本 书 。 

主页 “为 本 书 已 开发 了 Web 网 站 以 帮助 学 生 和 教师 。 网 址 为 www.cs.uncc.edu/par_prog。 
在 该 网 站 中 还 有 许多 Web 页 面 帮助 学 生 学 习 如 何 对 并 行程 序 进行 编译 和 运行 ， 网 站 上 还 提供 
了 一 些 示 范 程序 ， 作 为 简单 的 初期 作业 以 检查 软件 环境 。 在 准备 本 书 第 2 版 时 ， 对 整个 网 站 做 
了 重新 设计 ， 包 括 使 用 导航 按钮 对 学 生 进 行 逐 步 指导 ， 还 提供 了 DSM 程 序 设计 的 细节 。 对 指 
导 教 师 提 供 了 新 的 教师 手册 ， 并 给 出 了 MPI 的 解答 。 最 初 的 解答 手册 包含 PVM 的 解答 ， 仍 可 
使 用 。 可 从 作者 处 得 到 电子 版 的 解答 手册 。 从 主页 上 还 可 得 到 大 量 的 幻灯 片 。 

致谢 本 教科 书 的 第 1 版 是 美国 国家 科学 基金 会 资助 作者 在 北 卡罗来纳 大 学 夏 洛 特 分 校 的 
向 一 年 级 学 生 介绍 并 行程 序 设计 的 直 楼 结果 。 没有 当时 的 国家 科学 基金 会 计划 主任 、 已 故 
的 M.Mulder 博 士 的 支持 ， 我 们 不 可 能 去 追求 在 教科 书 中 所 提 及 的 那些 想法 。 许 多 研究 生 参 加 
了 这 一 独创 的 研究 项 目 。Uday Kamath 先 生 创作 了 最 初 的 习题 解答 手册 。 

我 们 要 向 部 门 的 系统 管理 员 James Robinson 致 谢 ， 他 建成 了 我 们 本 地 的 工作 站 机 群 ， 如 果 
没有 该 机 群 我 们 不 可 能 完成 这 一 著作 。 我 们 还 要 感谢 UNC ( 北 卡 罗 来 纳 大 学 ) 夏 洛 特 分 校 的 
许多 学 生 ， 多 年 来 他 们 选 了 我 们 的 课程 并 帮助 我 们 改进 了 教材 。 其 中 包括 了 “远程 课程 ” ， 在 
这 些 课程 中 ， 本 书 第 1 版 的 材料 成 为 以 独特 方式 实验 的 课堂 。 这 些 远程 课程 除了 在 UNC 夏 洛 特 
分 校外 ， 还 向 几 所 北 卡罗来纳 大 学 得 到 了 普及 ， 其 中 包括 北 卡 罗 来 纳 大 学 阿 什 维尔 分 校 、 北 
卡罗来纳 大 学 格林 斯 伯 勒 分 校 、 北 卡罗来纳 大 学 威 尔 明 顿 分 校 和 北 卡 罗 来 纳 州立 大 学 。 北 卡 
罗 来 纳 州立 大 学 的 Mladen Vouk 教 授 除 了 以 客座 专家 身份 授课 外 、 还 设计 了 一 个 给 人 印象 深刻 
的 Web 页 面 ， 其 中 包括 了 我 们 讲课 的 “实况 录音 ”和 “自动 翻 页 ”的 幻灯 片 。( 这 些 授课 情况 
可 通过 链接 我 们 的 主页 看 到 。) 杜 克 大 学 的 John Board 教 授 以 及 北 卡罗来纳 大 学 查 珀 尔 希 尔 分 
校 的 Jan Prins 教 授 也 欣然 做 了 客座 专家 的 讲演 ， 承 蒙 Raul Gallard 教 授 的 友好 邀请 ， 我 们 还 在 
阿根廷 的 圣路易斯 国立 大 学 讲授 了 基于 本 书 素材 的 并 行程 序 设 计 课程 。 

是 国家 科学 基金 会 继续 支持 我 们 对 机 群 计算 的 研究 工作 使 我 们 得 以 撰写 本 书 的 第 2 版 。 一 
项 国家 科学 基金 会 的 资助 项 目 鼓励 我 们 开发 分 布 式 共 享 存储 器 的 工具 和 教学 素材 。® 本 书 第 9 
章 分 布 式 共享 存储 器 程序 设计 叙述 了 这 一 研究 工作 。 此 后 ， 国 家 科学 基金 会 又 资助 我 们 一 个 
项 目 ， 于 2001 年 7 月 在 UNC 夏 洛 特 分 校 组 织 一 个 三 天 的 有 关机 群 计算 教学 的 专题 学 术 讨 论 
会 ，。 这 使 我 们 进一步 地 精练 了 本 书 的 素材 。 我 们 要 向 国家 科学 基金 会 计划 主任 Andrew 
Bernat 博 士 对 我 们 的 继续 支持 表示 感谢 。 是 他 提议 在 夏 洛 特 分 校 举 行 机 群 计算 的 专题 学 术 讨 论 
会 。 参 加 这 次 专题 学 术 讨论 会 的 共有 来 自 美国 各 地 的 18 位 教学 人 员 。 它 导致 了 另 一 个 三 天 的 、 

日 ”美国 国家 科学 基金 会 项 目 “ 将 并 行程 序 设计 技术 引入 大 学 一 年 级 课程 ”， 项 目 编号 DUE 9554975。 

全 ”美国 国家 科学 基金 会 项 目 “ 在 工作 站 机 群 上 的 并 行程 序 设计 ”， 项 目 编号 DUE 995030。 

外 ”美国 国家 科学 基金 会 项 目 对 机 群 计算 专题 学 术 讨 论 会 的 补充 资助 ， 项 目 编号 DUE 0119508。 
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于 2001 年 12 月 在 印度 阿 哈 玛 德 巴 德 的 Gujarat 大 学 举行 的 有 关机 群 计 算 教 学 的 专题 学 术 讨论 会 ， 
这 一 次 是 受 IEEE 机 群 计算 特别 工作 组 (Task Force on Cluster Computing，TFCC) 及 印度 
IEEE 计 算 机 学 会 的 邀请 。 这 次 专题 学 术 讨 论 会 约 有 40 位 教学 人 员 参 加 。 我 们 要 衷心 感谢 潜心 
于 该 专题 学 术 讨论 会 的 人 们 ， 特 别 是 Rajkumar Buyya 先 生 ，IEEE 机 群 计算 特别 工作 组 的 主席 ， 
是 他 提议 召开 这 次 专题 学 术 讨论 会 。 我 们 也 非常 感谢 Prentice Hall 出 版 社 为 每 位 出 席 代表 免费 
提供 了 本 教科 书 。 

我 们 仍 继续 与 在 UNC 夏 洛 特 分 校 的 和 在 别处 的 (包括 波士顿 的 马萨诸塞 大 学 ， 在 休假 离 
校 时 ) 学 生 一 起 检测 本 书 素材 。 在 编写 第 2 版 时 ， 好 几 位 UNC 夏 洛 特 分 校 的 本 科 生 与 我 们 一 起 
从 事 该 项 目 。 第 2 版 的 新 Web 页面 是 由 Omar Lahbabi 开 发 的 ， 并 由 Sari Ansari 进 一 步 改 进 ， 两 
位 都 是 本 科 生 。MPI 的 解答 手册 是 由 Thad Drum 和 Gabriel Medin 完 成 的 ， 他 们 两 位 也 是 UNC 夏 
洛 特 分 校 的 本 科 生 。 

我 们 特别 感谢 Prentice Hall 出 版 社 高 级 组 稿 编辑 Petra Rector， 他 在 出 版 本 书 第 2 版 的 整个 
过 程 中 给 予 了 我 们 支持 。 评 阅 人 对 我 们 提供 了 非常 有 用 的 指点 ， 特 别 是 一 位 匿名 评阅 人 ， 是 
他 直言 不 讳 的 评论 使 我 们 重审 本 书 的 许多 方面 ， 无 疑 地 改进 了 本 书 的 素材 。 

最 后 ， 我 们 要 感谢 许多 与 本 书 第 1 版 有 关 的 人 们 ， 他 们 向 我 们 提供 了 修正 和 建议 。 我 们 保 
留 了 一 份 在 线 勘 误 表 ， 这 在 本 书 再 版 时 将 非常 有 用 。 已 在 第 2 版 中 对 所 有 在 第 1 版 中 发 现 的 错 
误 做 了 修正 。 也 将 为 第 2 版 保留 一 份 在 线 勘 误 表 ， 它 与 我 们 的 主页 相连 。 我 们 将 永远 欢迎 对 本 
书 进行 评论 和 提供 修改 意见 。 请 将 你 们 的 评论 和 修改 意见 通过 下 列 电子 邮件 地 址 发 给 我 们 : 


wilkinson @ email.wcu.edu (Barry Wilkinson) 或 cma@uncc.edu ( Michael Allen) 。 


Barry Wilkinson 

西 卡罗来纳 大 学 

Michael Allen 

北 卡 罗 来 纳 大 学 , 夏 洛 特 分 校 
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任教 。 在 此 之 前 他 曾 在 英格兰 布 赖 顿 大 学 (1984 ~ 1987)、 纽 约 州立 大 学 纽 珀 尔 兹 学 院 (1983 
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在 英格兰 的 曼彻斯特 大 学 (计算 机 科学 系 ) 分 别 获 得 硕士 和 博士 学 位 。 自 1983 年 起 ， 他 一 直 
是 IEEE 的 资深 会 员 ， 并 在 2001 年 由 于 从 事 IEEE 机 群 计算 特别 工作 组 (TFCC) 的 教育 计划 工 
作 而 荣获 IEEE 计 算 机 科学 学 会 的 感谢 证 书 。 

Michael Allen 是 北 卡罗来纳 大 学 夏 洛 特 分 校 计 算 机 科学 系 教 授 。 在 此 之 前 他 曾 是 北 卡 罗 
来 纳 大 学 夏 洛 特 分 校 电气 工程 系 的 副教授 和 教授 (1974 ~ 1985)， 并 曾 是 纽约 州立 大 学 布 法 罗 
分 校 的 讲师 和 助理 教授 ( 1968 ~ 1974)。 在 1985 到 1987 年 他 离开 了 北 卡 罗 来 纳 大 学 夏 洛 特 分 校 ， 
在 DataSpan 公 司 任 董事 长 和 主席 。 他 还 曾经 在 Eastman Kodak、Sylvania Electronics、 宾 夕 法 
尼 亚 州 的 Bell、Wachovia Bank 以 及 许多 其 他 公司 中 从 事 电子 设计 和 软件 系统 开发 工作 。 他 于 
1964 年 和 1965 年 分 别 在 卡 内 基 - 梅 隆 大 学 获得 电气 工程 的 学 士 和 硕士 学 位 ， 并 于 1968 年 在 组 
约 州 立 大 学 布 法 罗 分 校 获得 博士 学 位 。 
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第 ] 章 并 行 计算 机 


本 章 首先 叙述 对 计算 机 有 更 强 计算 能 力 的 需求 ， 以 及 使 用 具有 多 个 内 部 处 理 器 的 计算 机 
和 多 个 互联 计算 机 的 概念 。 然 后 讨论 使 用 多 计算 机 或 多 处 理 机 以 提高 执行 速度 的 前 景 和 极限 。 
最 后 将 探讨 构成 这 些 系统 的 各 种 方法 ， 特 别 是 在 机 群 中 使 用 多 计算 机 的 方法 ， 机 群 已 成 为 进 
行 高 性 能 计算 非常 经 济 有 效 的 计算 机 平台 。 


1.1 对 计算 速度 的 需求 


人 们 要 求 计算 机 系统 提供 更 强 的 计算 能 力 的 需求 总 是 不 断 增长 的 。 需 要 很 高 计算 速度 的 
领域 包括 科学 和 工程 问题 的 数值 建 模 和 模拟 。 这 些 问 题 常 需要 对 大 量 数据 进行 很 多 次 重复 计 
算 以 得 到 有 效 结果 。 此 外 计算 必须 在 “合理 ”的 时 间 内 完成 。 在 制造 业 领域 ， 工 程 计 算 和 模 
拟 如 果 可 能 的 话 必须 在 几 秒 或 几 分 钟 内 完成 。 在 设计 环境 中 ， 如 果 进 行 一 次 模拟 需要 两 星期 
才能 得 到 结果 通常 是 不 可 接受 的 。 因 为 只 有 模拟 完成 时 间 足 够 短 时 ， 设 计 者 方 可 高 效 地 工作 。 
当 系 统 变 得 更 复杂 时 ， 就 需要 增加 更 多 时 间 对 系统 进行 模拟 。 有 一 些 应 用 问题 的 计算 对 时 间 
有 特定 的 期 限 (最 著名 的 要 数 气象 预报 ) ， 花 两 天 时 间 来 获取 当地 第 二 天 精确 的 天 气 预报 将 使 
得 这 种 预报 毫 无 意义 。 某 些 研究 领域 ， 如 对 大 型 DNA 结 构建 模 以 及 进行 全 球 天 气 预报 均 属于 
巨大 挑战 性 问题 (grand challenge problem )。 所 谓 巨 大 挑战 性 问题 是 指 无 法 用 当今 计算 机 在 
合理 的 时 间 内 完成 求解 的 那些 问题 。 

由 计算 机 进行 的 天 气 预报 (数值 气象 预报 ) 是 一 个 被 广泛 引用 的 、 需 要 功能 非常 强大 计算 
机 的 一 个 典型 例子 。 大 气 建 模 是 通过 将 大 气 层 划 分 成 三 维 区 域 或 单元 完成 的 。 该 模型 使 用 相当 
复杂 的 数学 方程 来 估 测 各 种 影响 。 实 质 上 ， 在 某 一 时 间 间 隔 内 的 每 个 单元 中 的 条 件 〈 温 度 、 压 
力 、 湿 度 、 风 速 和 风向 等 ) 是 通过 使 用 在 前 一 时 间 间 隔 中 的 条 件 进 行 计 算得 到 的 。 每 个 单元 的 
计算 要 重复 许多 次 以 模拟 时 间 的 推移 。 使 此 模拟 有 效 的 关键 点 在 于 必须 有 足够 多 的 单元 数 。 为 
预报 数 天 的 天 气 ， 由 于 大 气 层 会 受 远 距 离 事件 的 影响 ， 因 此 必须 有 较 大 的 覆盖 范围 。 假 定 我 们 
将 整个 地 球 大 气 层 分 成 大 小 为 1 英里 ? x 1 英里 x 1 英里 的 许多 单元 ， 布 满 从 地 面 直至 10 英 里 的 
高 度 〈 即 10 个 单元 高 )， 粗 略 地 估算 约 有 5 x 108 个 单元 。 假 设 每 个 单元 的 计算 需要 200 次 浮 点 运 
算 ( 当 数 具有 小 数 部 分 或 是 提升 为 里 时 ， 必 须 使 用 这 种 类 型 的 运算 )。 则 在 一 个 时 间 步 中 就 必 
须 完 成 107 次 浮 点 运算 。 如 果 我 们 想 预 报 7 天 以 上 的 天 气 ， 使 用 的 时 间 间 隔 为 1 分 钟 ， 此 时 就 需 
要 104 个 时 间 步 和 总 计 105 次 浮 点 运算 。 那 么 对 一 台 运 算 速度 为 1Gflops(10? 浮 点 运算 / 秒 ) 的 
计算 机 就 将 需要 105 秒 〈 即 超过 10 天 ) 才能 完成 上 述 计 算 。 要 想 在 5 分 钟 内 完成 这 一 计算 ， 我 们 
就 需要 运算 速度 为 3.4Tflops (3.4x 10? 浮 点 运算 / 秒 ) 的 计算 机 。 

另 一 个 需要 巨大 计算 量 的 应 用 问题 是 预测 太空 中 天 体 的 运动 。 每 个 天 体 由 于 万 有 引力 而 互 
相 吸 引 。 这 些 远 距 离 的 力 可 用 简单 公式 加 以 计算 (参见 第 4 章 )， 而 每 个 天 体 的 运动 可 以 通过 计 
算 天 体 所 受 合力 的 计算 加 以 预测 。 如 果 共 有 NN 个 天 体 ， 则 每 个 天 体 将 总 共 需 计算 N-1 个 力 ， 约 
和 次 计算 。 在 确定 这 些 天 体 的 新 位 置 后， 必须 重复 这 种 计算 。 图 1-1 中 示 出 了 一 个 快照 ， 是 一 
名 大 学 生 求 解 此 问题 所 得 到 的 结果 ， 由 于 该 问题 是 作为 指定 的 程序 设计 习题 的 ， 故 而 只 给 定 了 
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几 个 天 体 。 但 是 实际 上 可 能 要 考虑 具有 大 量 天 体 的 情况 。 例 如 ， 银 河 系 可 能 有 10" 个 星体 ， 此 
时 就 需 重复 计算 102 次 。 即 使 使 用 第 4 章 中 所 述 的 
仅 需 N logz N 次 计算 的 高 效 近似 算法 (但 每 次 计算 
中 含有 更 多 的 计算 量 ), 计算 的 总 量 仍 异常 巨大 
(1011og210" )。 若 在 单 处 理 器 系统 上 运算 将 需要 
很 长 时 间 。 即 使 每 次 计算 仅 需 1 微 秒 (10 习 秒 ， 这 
是 非常 乐观 的 估计 ， 因 为 一 次 计算 中 含有 多 次 乘 
法 和 除法 ) ， 则 使 用 NMz 算法 时 ， 每 次 迭代 就 需 时 
10? 年 。 而 用 Miog2NM 算 法 时 ， 一 次 友 代 也 需 几 乎 一 
年 的 时 间 。N 体 问题 在 分 子 级 建 模 化 学 和 生物 学 系 
统 时 也 会 出 现 ， 并 且 需 要 巨大 的 计算 能 力 。 

全 球 的 天 气 预报 和 大 量 物体 的 模拟 (天体 的 
或 是 分 子 的 ) 是 需要 巨大 计算 能 力 的 传统 应 用 例 
子 ， 但 是 人 的 本 能 会 不 断想 像 那些 超过 当今 计算 
机 系统 能 力 的 新 的 应 用 ， 从 而 需要 比 目 前 可 提供 
的 更 高 速度 。 近期 的 一 些 应 用 ， 如 虚拟 现实 ， 需 图 1-1 由 Scott Linssen ( 北 卡罗来纳 大 学 夏 洛 特 
要 很 高 的 计算 速度 使 图 像 和 运动 真实 、 连 贯 从 分 校本 科 生 ) 完成 的 天 体 物 理学 N 体 模拟 
而 获得 所 需 结果 。 看 来 不 论 当 前 的 处 理 器 达到 
什么 样 的 计算 速度 ， 总 是 会 有 应 用 需要 更 高 的 计算 能 力 。 

传统 的 计算 机 只 有 一 个 处 理 器 来 完成 程序 中 所 说 明 的 动作 。 提 高 计算 速度 的 一 种 方法 是 
-在 一 台 计 算 机 中 用 多 个 处 理 器 (多 处 理 机 ) 协同 求解 一 个 问题 ， 这 种 方法 实际 上 好 多 年 来 一 
直 在 进行 研究 ; 或 是 使 用 另 一 种 方法 ， 即 用 多 台 计 算 机 协同 求解 一 个 问题 。 不 论 是 哪 一 种 方 
法 ， 整 个 的 求解 问题 被 分 成 若干 部 分 ， 然 后 每 个 部 分 各 由 一 个 处 理 器 并 行 地 计算 。 编 写 这 种 
形式 的 程序 被 称 为 是 并 行程 序 设计 (Parallel programming )。 计 算 平 台 ， 即 一 台 并 行 计算 机 
(parallel compnuter ) ， 可 以 是 专门 设计 的 、 含有 多 个 处 理 器 的 计算 机 系统 或 是 以 某 种 方式 互联 
的 若干 台独 立 的 计算 机 。 这 种 方法 将 显著 地 提高 性 能 。 基 本 的 想法 是 ， P 台 处 理 器 /计算 机 应 
能 提供 p 倍 的 单 处 理 器 / 单 计算 机 速度 ,不论 当 前 处 理 器 /计算 机 的 速度 为 多 少 ， 可 以 期 待 求解 
问题 将 以 1/p 时 间 完 成 。 当 然 这 是 一 个 理想 情况 ， 实 际 上 很 难 达 到 。 这 是 因为 问题 经 常 不 能 完 
全 分 解 为 各 个 独立 的 部 分 ， 同 时 各 部 分 之 间 必 须 进 行 交互 ,包括 计 算 中 的 数据 传送 和 同步 。 
尽管 如 此 ， 仍 可 达到 实质 性 的 性 能 改进 ， 这 取决 于 和 欲求 解 问题 和 问题 中 的 并 行 性 程度 。 对 并 
行 计 算 的 要 求 永远 不 会 终止 ， 这 一 方面 是 因为 单 处 理 器 执行 速度 的 不 断 提 升 使 并 行 计 算 机 速 
度 越 来 越 快 ， 另 一 方面 总 是 有 一 汪 导 有 有 刁 六 灌 胞 作风 问题 这 些 问题 在 当前 计算 机 上 求解 时 
不 可 能 在 合理 的 时 间 内 完成 。 

除了 可 使 对 现 有 的 问题 得 到 加 速 求解 以 外 ， 多 计算 机 /多 处 理 机 的 使 用 常常 可 使 一 个 更 大 
的 问题 或 更 精确 的 问题 求解 能 在 合理 的 时 间 内 完成 。 例 如 ， 许 多 物理 现象 的 计算 涉及 到 将 问 
题 分 成 为 离散 的 求解 点 。 天 气 预 报 计算 包含 着 将 大 气 层 分 为 三 维 的 求解 格 点 。 二 维和 三 维 的 
求解 格 点 出 现在 许多 其 他 应 用 中 。 用 多 计算 机 或 多 处 理 机 求解 时 ， 常 允许 在 给 定 的 时 间 内 计 
算 更 多 的 求解 点 ， 从 而 可 获得 更 精确 的 解 。 一 个 相关 的 因素 是 多 计算 机 常 比 单 计算 机 有 更 大 
的 总 主 存储 器 容量 ， 从 而 使 需要 较 大 主 存储 器 容量 的 问题 得 到 解决 。 

即使 一 个 问题 可 在 合理 的 时 间 内 完成 求解 ， 但 当 相同 问题 必须 用 不 同 的 输入 值 进行 多 次 
求解 时 ， 会 出 现 如 下 特别 适用 于 并 行 计算 机 的 情况 ， 因 为 不 需要 对 程序 作 任何 改动 ， 相 同 程 


N-Body Problem 
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序 的 多 个 实例 就 可 在 不 同 的 处 理 器 /计算 机 上 同时 执行 。 模 拟 实验 常 属于 这 种 类 别 。 模 拟 代码 
只 需 简 单 地 在 不 同 的 计算 机 上 对 不 同 的 输入 值 同时 执行 。 

最 后 ， 因 特 网 和 万 维 网 的 出 现 为 并 行 计算 机 产生 了 一 个 新 的 领域 。 例 如 ，Web 服 务 器 常 党 
必须 每 小 时 处 理 来 自用 户 的 成 千 上 万 个 请 求 。 一 台 多 处 理 机 ， 或 当今 更 可 能 的 是 将 多 台 计 算 机 
连接 起 来 而 构成 的 “机 群 "， 将 用 来 为 客户 提供 这 种 服务 。 此 时 ， 各 个 请 求 可 由 不 同 的 处 理 颖 
或 计算 机 同时 提供 服务 。 在 线 银 行业 和 在 线 零售 商都 使 用 计算 机 机 群 为 他 们 的 顾客 提供 服务 。 

并 行 计算 机 不 是 新 设想 ， 事 实 上 这 是 一 个 很 古老 的 想法 。 例 如 ，Gill 在 1958 年 就 写 出 了 有 
关 并 行程 序 设计 的 论文 [Gill,1958]。Holland 在 1959 年 发 表 了 一 篇 关于 “能 同时 执行 任意 多 子 程序 
的 计算 机 ”的 论文 [Holland, 1959]。Conway 在 1963 年 叙述 了 并 行 计算 机 的 设计 及 其 编程 [Conway, 
1963]。 尽 管 有 如 此 长 的 历史 ， 但 Flynn 和 Rudd 于 1996 年 写 道 :“ 对 更 高 性 能 系统 的 不 断 增 长 的 需 
求 …… 将 向 我 们 指明 一 个 简单 结论 : 并 行 是 计算 机 的 未 来 。 我 们 完全 赞同 这 个 结论 。 


1.2 提高 计算 速度 的 潜力 


在 以 下 和 以 后 几 章 中 ， 进 程 数 或 处 理 器 数 将 用 p 来 表示 ， 而 将 用 术语 “多 处 理 机 - 
( multiprocessor) 来 表示 所 有 多 于 一 个 处 理 器 的 并 行 计算 机 系统 。 


1.2.1 加 速 系 数 


在 一 个 多 处 理 机 上 研发 求解 时 ， 也 许 最 感 兴趣 的 一 个 问题 是 : 采用 多 处 理 机 求解 该 问题 
能 快 多 少 ? 为 进行 这 一 比较 ， 我 们 应 使 用 在 单 处 理 器 能 得 到 的 最 好 解 ， 即 在 单 处 理 器 系统 上 
所 使 用 的 最 好 顺序 算法 ， 与 在 多 处 理 机 上 所 研究 的 并 行 算 法 进行 比较 。 加 束 系 数 (speedup 
factor) S (p)s 是 对 相对 性 能 的 衡量 ， 它 被 定义 为 : 
使 用 单 处 理 器 系统 执行 时 间 (用 最 好 的 顺序 算法 ) 
使 用 具有 p 个 处 理 器 的 多 处 理 机 的 执行 所 需 的 时 间 

我 们 用 /; 表示 在 单 处 理 器 上 运行 最 好 的 顺序 算法 所 需 执 行 时 间 ， 而 用 1, 表示 在 一 个 多 处 理 
机 上 求解 相同 问题 所 需 执行 时 间 。 那 么 就 有 : 


fs 
Sp) = 


S$ (p)= 


SC) 给 出 了 使 用 多 处 理 机 后 所 能 得 到 的 速度 增加 。 应 注意 的 是 并 行 实现 的 基本 算法 可 能 与 运行 
在 单 处 理 器 系统 上 的 算法 不 尽 相同 〔 并 且 通 常 是 不 同 的 )。 
在 理论 分 析 中 ， 加 速 系数 也 可 根据 计算 步 进行 预测 ; 
stp) = 使 用 单 处 理 器 所 需 的 计算 步 数 
使 有 个 处 理 器 所 需 的 并 行 计算 步 娄 
对 于 顺序 计算 ， 通 常用 时 间 复杂 性 来 比较 不 同 的 算法 ， 在 第 2 章 中 我 们 将 回顾 这 一 点 。 如 
我 们 将 见 到 的 那样 ， 可 将 时 间 复杂 性 扩展 到 并 行 算法 ， 并 应 用 到 加 速 系数 。 但 是 单独 考虑 计 
算 步 可 能 不 一 定 有 用 ， 因 为 并 行 实现 可 能 在 各 并 行 部 分 间 需 要 昂贵 的 通信 ， 它 通常 比 计算 步 
需要 更 多 的 时 间 。 在 第 2 章 中 我 们 还 将 对 这 一 点 进行 进一步 的 讨论 。 
对 于 p 个 处 理 器 而 言 ， 可 能 获得 的 最 大 加 速 比 通常 为 p 【线性 加 速 (jinear speedup))。 当 


日 ”加 速 系 数 通常 是 p 和 和 欲 处 理 数据 项 数 " 两 者 的 函数 ， 即 8 (P，m*)。 我 们 将 在 后 面 介绍 数据 项 数 。 这 里 的 唯一 
变量 是 p。 . 
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计算 可 被 分 成 相等 持续 时 间 的 进程 ， 且 一 个 进程 被 映射 到 一 个 处 理 器 上 ( 且 并 行 求解 无 附加 
的 开销 ) 时 ， 就 可 获得 加 速 系 数 p。 
fs 
S(p)< Ep? 

偶尔 会 出 现 超 线性 加 速 比 (superlinear speedup ) ， 即 $ (p)>p， 通 常 这 是 由 于 使 用 的 是 次 
优化 顺序 算法 或 是 某 一 有 利于 并 行 构造 的 独特 体系 结构 特性 ， 或 是 算法 的 不 确定 性 而 造成 的 。 
一 般 而 言 ， 如 果 一 个 纯 确 定性 并 行 算 落 能 比 目 前 的 顺序 算法 获得 大 于 p 倍 的 加 速 比 ， 可 让 该 并 
行 算 法 在 单 处 理 器 上 逐个 地 对 并 行 部 分 加 以 模拟 ， 从 而 可 发 现 原 先 的 顺序 算法 并 非 是 优化 的 。 

超 线性 加 速 的 更 为 常见 的 一 个 原因 是 由 于 在 多 处 理 机 系统 中 有 额外 的 存储 器 。 例 如 ， 假 
设 多 处 理 机 系统 中 每 个 处 理 器 所 含有 的 主 存储 器 容量 与 在 单 处 理 机 系统 中 所 拥有 的 一 样 ， 那 
么 由 于 多 处 理 机 系统 中 总 的 主 存储 器 容量 要 大 于 单 处 理 机 系统 中 的 主 存储 器 容量 ， 因 而 在 任 
何 时 刻 它 总 能 保存 更 多 的 求解 问题 的 数据 ， 这 就 会 导致 较 少 的 磁盘 和 主 存储 器 间 的 数据 交换 。 

效率 “有 时 需要 知道 处 理 器 在 多 长 时 间 内 用 于 有 用 的 计算 ， 这 可 从 (系统 ) 效率 
(efficiency) 推 得 。 效 率 E 被 定义 为 : 


_ 使 用 单 处 理 器 的 执行 时 间 
使 用 多 处 理 机 执行 时 间 x 处 理 器 个 数 ” 志 x 


它 可 生成 : Ex100% 
其 中 E 以 百分比 形式 表示 。 例 如 ， 如 果 E = 50%， 则 平均 来 讲 ， 处 理 器 仅 有 一 半 的 时 间 是 用 于 
计算 的 。100% 的 最 大 效率 仅 当 所 有 处 理 器 在 所 有 时 间 都 用 于 计算 时 才 会 出 现 ， 此 时 的 加 速 系 
数 S(p) 将 为 p。 


1.2.2 什么 是 最 大 的 加 速 比 


将 有 几 个 因素 在 并 行 的 版 本 中 以 开销 形式 出 现 ， 从 而 限制 了 加 速 : 

1) 有 了 时 并 非 所 有 处 理 器 都 能 完成 有 用 的 工作 ， 从 而 导致 一 些 处 理 器 处 于 闲置 状态 。 

2) 在 并 行 版 本 中 需要 在 顺序 计算 中 不 会 出 现 的 额外 计算 ， 例 如 对 常数 重新 进行 局 部 计算 。 

3) 进程 间 的 通信 时 间 。 

显然 期 望 计算 的 某 些 部 分 不 能 分 成 并 发 进程 而 必须 对 它们 串 行 地 求解 是 合情合理 的 。 在 
某 些 时 间 段 肉 ， 也 许 在 初始 化 阶段 或 是 在 并 发 进程 被 创建 以 前 的 一 段 时 间 内 ， 只 有 一 个 处 理 
器 在 做 有 用 工作 ， 而 在 其 余 的 计算 中 ， 其 他 的 处 理 机 将 运行 这 些 进程 。 

假定 程序 中 有 某 些 部 分 只 能 在 单 处 理 器 上 执行 ， 则 理想 的 情况 将 是 所 有 可 用 处 理 器 在 余 
下 的 时 间 内 同时 运行 。 如 果 不 能 分 解 成 并 发 任务 的 计算 部 分 所 占 的 比例 为 f， 并 认为 将 计算 分 
为 并 发 部 分 时 无 需 开 销 ， 则 用 p 个 处 理 器 完成 此 计算 所 需 的 时 间 为 : ft + (1- ts/p， 如 图 1-2 所 
示 。 图 1-2 所 说 明 的 是 这 样 的 一 种 情况 ， 即 计算 开始 时 是 一 个 串 行 的 计算 部 分 ， 实 际 上 该 串 行 
计算 部 分 可 能 分 布 在 整个 计算 中 。 因 此 加 速 系数 可 由 下 式 给 定 : 

所 p 
sp)= +- filp lt+(p-DF 

该 方程 式 即 是 阿 姆 达尔 定律 (Amdahl's law) [Amdahl，1967]。 图 1-3 中 示 出 了 S(p) 相 对 
于 处 理 器 数 以 及 相对 于 f 的 变化 图 。 从 图 1-3 上 的 确 可 看 到 速度 的 改进 ， 但 是 若 要 使 速度 有 显 
著 的 增长 就 需 使 能 由 并 发 进程 执行 的 计算 部 分 成 为 整个 计算 的 主要 部 分 。 即 使 使 用 无 限 多 个 
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处 理 器 ， 最 大 的 加 速 比 仍 被 限制 在 I/A， 即 ， 

1 
S(p)=— 
人 


也 一 oo 


例如 ， 当 仅 有 5 多 的 计算 为 串 行 时 ， 可 获得 的 最 大 加 速 比 为 20， 而 与 处 理 器 个 数 无 关 。 在 20 世 
[8] 纪 60 年 代 ， 阿 姆 达尔 用 这 一 论点 提倡 使 用 单 处 理 器 系统 。 当 然 人 们 可 能 以 此 来 进行 反驳 ， 即 
20 倍 的 加 速 比 已 经 是 足够 好 了 。 












趾 行 部 分 
















a) 单 处 理 器 
b) 多 处 理 机 
P 个 处 理 器 
Y 
-fp 
p 
图 1-2 顺序 问题 的 并 行 化 一 阿 姆 达 尔 定 律 
20 f=0% 
16 
汉 12 沁 
活 ~5% 沟 
吴 f=10% 租 
4 f= 20% 
4 8 12 16 20 02 04 06 08 10 
a) 处 理 器 的 个 数 ，p b) 串 行 比例 ，/ 


图 1-3 a) 加 速 比 与 处 理 器 数 的 关系 b) 加 速 比 与 串 行 比例 /的 关系 


在 某 些 情况 下 ， 速 度 的 改进 可 达到 几 个 数量 级 。 例 如 ， 在 搜索 算法 中 能 出 现 超 线性 加 速 

比 。 在 搜索 问题 中 ， 求 解 是 通过 穷尽 查找 进行 的 ， 假 定 求解 空间 在 处 理 器 间 分 割 ， 每 一 个 处 

[9?] 理 器 完成 一 个 独立 的 搜索 。 在 顺序 实现 中 ， 对 不 同 的 搜索 空间 是 逐个 进行 搜索 的 。 在 并 行 实 
现 中 ， 逐 个 搜索 可 同时 进行 ， 且 一 个 处 理 器 儿 乎 可 能 立即 找到 求解 。 在 顺序 版 本 中 ， 假 定 在 
搜索 x 个 子 空间 后 求解 答案 在 搜索 下 一 个 子 空间 的 At 时 间 找 到 。 则 在 前 面 所 搜索 过 的 子 空间 个 

数 ( 即 x) 是 不 确定 的 ， 并 将 依赖 于 求解 的 问题 。 在 并 行 版 本 中 ， 解 答 在 时 间 At 立 即 可 以 找到 。 
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如 图 1-4 所 示 。 


子 空间 搜索 








找到 解答 
b) 并 行 搜索 每 个 子 空间 
图 1-4 超 线性 加 速 比 
此 时 的 加 速 比 由 下 式 给 定 : 
(: x | +Ar 
~ 


S(p)= 
Ar 
顺序 搜索 的 最 坏 情 况 出 现在 求解 是 在 最 后 一 个 子 空间 的 搜索 中 找到 时 ， 此 时 并 行 版 本 可 提供 





最 大 的 好 处 : 
[2 一 xt.+At 
S(p)= Pp py 一 oo 当 At 趋 于 0 
并 行 版 本 可 提供 最 小 的 好 处 出 现在 当 顺序 搜索 在 第 1 个 子 空间 中 找到 答案 时 : 
Ai 
S(p)= A 1 


确切 的 加 速 比 将 依赖 于 在 哪 一 个 子 空间 中 包含 有 该 搜索 的 解答 ， 但 该 加 速 比 可 能 会 非常 大 。 
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可 扩展 性 (Scalability) 系统 的 性 能 将 依赖 于 系统 的 规模 ， 如 处 理 器 数 ， 一 般 来 讲 ， 系 统 
规模 越 大 性 能 就 越 好 ， 但 成 本 也 就 越 高 。 可 扩展 性 是 一 个 相当 不 精确 的 的 术语 。 它 用 来 表示 
一 种 允许 系统 规模 增 大 的 硬件 设计 ， 这 样 做 的 结果 是 可 获得 更 高 的 性 能 ， 这 种 可 扩展 性 被 描 
述 为 是 体系 结构 可 扩展 性 (architecture scalability) 或 硬件 可 扩展 性 (hardware scalability ) 。 
可 扩展 性 也 可 用 来 指明 一 个 并 行 算法 能 容纳 更 多 的 数据 项 而 只 需 增加 少量 和 有 限 的 计算 步 ， 
这 种 可 扩展 性 被 描述 为 算法 的 可 扩展 性 (algorithmic scalability ) 。 

当然 ， 我 们 希望 所 有 多 处 理 机 系统 是 体系 结构 可 扩展 的 (制造 厂商 以 这 种 方式 将 它们 的 
系统 推 向 市 场 )， 但 这 将 严重 依赖 于 系统 的 设计 。 通 常 当 我 们 将 更 多 的 处 理 器 加 到 系统 中 时 ， 
我 们 必须 同时 扩展 互联 网 络 。 这 种 扩展 将 导致 更 大 的 通信 延 时 和 更 多 的 争 用 ， 从 而 使 系统 的 
效率 E 减 小 。 大 多 数 多 处 理 机 设计 的 基本 目标 是 具有 可 扩展 性 ， 这 一 点 已 反映 在 设计 了 大 量 的 
互联 网 络 的 这 一 举动 上 。 

组 合 的 体系 结构 /算法 可 扩展 性 瞳 示 着 对 于 特定 的 体系 结构 和 算法 而 言 ， 随 着 系统 规模 的 
增 大 ， 它 可 容纳 更 大 规模 的 问题 。 增 大 系统 规模 显然 意味 着 要 增加 处 理 器 的 数量 ， 而 增 大 问 
题 的 规模 则 需要 作 有 关 说 明 。 直 觉 上 我 们 会 想到 以 算法 中 要 处 理 的 数据 元 素 总 数 作为 衡量 规 
模 大 小 的 标准 。 但 是 使 问题 规模 扩大 一 倍 并 不 一 定 会 使 计算 步 数 也 增 大 一 倍 。 这 将 依赖 于 要 
求解 的 问题 本 身 。 例 如 在 第 11 章 中 所 讨论 的 两 个 矩阵 的 相 加 会 有 这 样 的 结果 ， 但 将 两 个 矩阵 
相 乘 就 不 会 遵从 这 一 规律 。 因 为 扩展 的 矩阵 相 乘 将 使 计算 步 数 增 为 四 倍 。 因 此 ， 扩 大 不 同 的 
问题 意味 着 会 有 不 同 的 计算 要 求 。 问 题 规模 (problem size) 的 另 一 种 定义 是 使 问题 规模 与 最 
佳 顺序 算法 中 所 需 的 基本 步 数 等 同 起 来 。 当 然 ， 使 用 这 种 定义 时 ， 如 果 我 们 增加 了 数据 点 的 
数目 ， 我 们 就 将 增 大 问题 的 规模 。 

在 以 后 的 几 章 中 ， 除 了 处 理 器 数 p 外 、 我 们 还 将 用 来 表示 问题 中 的 输入 数据 元 素 的 个 
数 9。 要 改进 性 能 ， 通 常 可 改变 p 和 n 两 者 。 改 变 p 即 是 改变 了 计算 机 系统 的 规模 ， 而 改变 
意味 着 改变 了 问题 的 规模 。 通 常 ， 增 加 问题 的 规模 将 改善 相关 性 能 ， 因 为 此 时 可 有 更 多 的 
并 行 性 。 

Gustafson 根 据 可 扩展 性 概念 提出 了 一 个 论点 ， 以 证 明 阿 姆 达尔 定律 并 非 如 当初 假设 的 那 
样 会 对 限 止 可 能 的 加 速 比 有 严重 的 影响 [Gustafson,1988]。 Gustafson 认 为 将 该 思想 公式 化 成 方 
程 形式 是 E.Barsis 的 功劳 。Gustafson 提 出 ， 实 际 上 一 个 有 更 大 规模 的 多 处 理 机 通常 允许 以 合理 
的 执行 时 间 求 解 更 大 规模 的 问题 。 因 此 ， 实 际 上 问题 规模 的 大 小 经 常 是 与 可 用 的 处 理 器 数 相 
关 的 。 与 其 假设 问题 规模 固定 , 倒 不 如 假设 并 行 执行 时 间 固定 。 当 系统 的 规模 增加 时 (增加 p)， 
则 增加 问题 规模 就 可 保持 固定 的 并 行 执行 时 间 。 当 增加 问题 规模 时 ，Gustafson 还 认为 代码 的 
串 行 部 分 一 般 是 固定 的 ， 并 不 会 随 问题 规模 的 增 大 而 增加 。 

将 固定 的 并 行 执行 时 间作 为 约束 后 ， 所 推 得 的 加 速 系数 与 阿 姆 达 尔 加 速 系数 在 数值 上 是 
不 同 的 , 它 被 称 为 比例 加 速 系数 (scaled speedup factor) ( 即 加 速 系数 随 问题 规模 增 大 而 增加 )。 
对 于 Gustafson 的 比例 加 速 系 数 ， 并 行 执行 时 间 志 是 常数 ， 而 不 像 在 阿 姆 达尔 定律 中 顺序 执行 
时 间 #* 是 常数 。 我 们 将 使 用 推导 阿 姆 达 尔 定 律 中 相同 的 表示 法 来 推导 Gustafson 定 律 ， 但 必须 将 
顺序 执行 时 间 # 分 离 成 顺序 和 可 并 行 化 部 分 ft; + (1-f) fs， 而 其 中 顺序 部 分 是 常数 。 为 推导 方 
便 起 见 ， 让 并 行 执行 时 间 志 = fr, + (1~f) ty/p = 1， 再 对 该 式 作 一 点 小 的 代数 变换 ， 顺 序 执行 时 
间 5 就 变 为 ft; + (1- 了 ) t; =p + (1-p) fi, 。 这 样 比例 加 速 系数 就 将 变 成 : 

ft- _ p+(- pf, 


SPOR 1 ?+PA, 


日” 对 矩阵 ， 将 认为 是 n x "的 矩阵 。 
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该 公式 被 称 为 Gustafson 定 律 (Gustafson’s law)。 在 该 方程 式 中 有 两 点 假设 : 并 行 执行 时 间 是 常 
数 ， 以 及 必须 顺序 执行 的 部 分 访 也 是 常数 ， 而 不 是 p 的 函数 。Gustafson 的 观察 结果 是 : 比例 加 
速 系数 是 负 和 斜率 为 (1-P) 的 直线 而 并 非 是 如 图 1-3b 所 示 的 急剧 下 降 的 曲线 。 例 如 ， 假 定 串 行 
部 分 的 比例 为 5%， 而 处 理 器 数 为 20， 则 按 此 公式 计算 得 到 的 加 速 比 为 0.05 + 0.95 (20) =19.05， 
而 不 是 按 阿 姆 达 和 尔 定律 计算 得 到 的 10.26 ( 当 应 注意 不 同 的 假设 )。Gustafson 引 用 了 当 用 1024 
个 处 理 器 系统 求解 数值 和 模拟 问题 时 ， 实 际 上 可 达到 加 速 系数 为 1021、1020 和 1016 的 例子 。 

除了 固定 问题 规模 尺度 〈 阿 姆 达尔 假设 ) 和 时 间 受 限 尺 度 (Gustafson 假 设 ) 外 ， 尺 度 也 
可 以 是 存储 器 受 限 尺度 。 在 存储 器 受 限 的 尺度 中 ， 问 题 的 规模 随 可 用 存储 器 容量 的 增 大 而 增 
大 。 当 处 理 器 数 增加 时 ,一般 存储 器 的 容量 也 将 按 比 例 增加 。 这 种 形式 可 能 导致 执行 时 间 的 
显著 增加 [Singh, Hennessy, and Gupta, 1993]。 


1.2.3 消息 传递 计算 


到 目前 为 止 的 分 析 ， 没 有 考虑 消息 传递 ， 它 在 消息 传递 编程 的 计算 中 可 能 是 一 个 很 大 的 
开销 。 在 这 种 形式 的 并 行程 序 设计 中 ， 在 进程 间 传送 消息 是 为 了 传递 数据 和 进行 同步 。 因 此 ， 
ty = tfcomm + fcomp 
其 中 konm 是 通信 有 时间， 而 teomo 是 计算 时 间 。 由 于 我 们 将 问题 分 成 各 个 并 行 部 分 ， 使 得 这 些 并 行 
部 分 变 小 ， 因 此 一 般 这 些 并 行 部 分 的 计算 时 间 会 减少 ， 而 这 些 并 行 部 分 间 的 通信 通常 会 增加 
(因为 有 更 多 的 部 分 通信 )。 到 达 某 一 点 后 , 通信 时 间 将 会 成 为 整个 执行 时 间 的 主要 部 分 ， 从 而 
使 并 行 执行 时 间 实际 上 增加 。 由 于 处 理 器 间 的 通信 将 花费 大 量 时 间 ， 因 此 减少 通信 开销 就 变 得 

非常 关键 。 并 行 求解 中 的 通信 部 分 通常 不 会 出 现在 顺序 求解 中 ， 因 而 被 认为 是 一 种 开销 。 
计算 /通信 比 
计算 时 间 。 tom 
通信 和 时间。 fomm 
可 用 做 衡量 指标 。 在 以 后 的 几 章 中 ,我 们 将 为 算法 和 问题 推导 与 处 理 器 数 (p) 和 数据 元 素 
数目 (n) 有 关 的 计算 时 间 和 通信 时 间 的 方程 式 ， 以 了 解 可 能 的 潜在 加 速 以 及 增加 和 7 的 影响 。 
在 实际 情况 中 ， 对 p 值 ， 即 所 使 用 的 系统 规模 我 们 没有 太 多 的 控制 机 会 (除了 我 们 能 将 求 
解 问题 的 多 个 进程 映射 到 一 个 处 理 器 上 ， 尽 管 通常 这 没有 太 多 好 处 )。 例如， 假定 对 某 个 p 值 ， 
一 个 求解 问题 需要 cin 计 算 和 czn? 通信 。 显 然 ， 当 n 增 加 时 通信 时 间 的 增加 将 快 于 计算 时 间 的 增 
加 。 从 计算 /通信 比 (ci /czn) 可 清楚 看 到 这 一 点 ， 该 比值 可 通过 在 时 间 复 杂 性 的 符号 中 去 掉 
常数 后 得 到 (参见 第 2 章 )。 通 常 我 们 希望 计算 /通信 比 应 尽 可 能 高 ， 即 应 是 4 的 高 增长 函数 ， 
以 使 得 问题 规模 的 增长 仅 导 致 较 小 的 通信 时 间 的 增长 。 当 然 这 是 一 个 与 许多 因素 有 关 的 复杂 
问题 。 最 后 应 指出 的 是 ， 只 有 通过 在 一 个 实际 的 多 处 理 机 系统 上 执行 求解 程序 才能 验证 其 执 
行 速度 ， 并 假定 在 那 时 该 程序 将 会 被 完成 。 在 下 一 章 中 ， 我 们 将 叙述 各 种 衡量 实际 执行 时 间 
的 方法 。 


1.3 并 行 计算 机 的 类 型 


在 我 们 相信 随 着 多 处 理 机 或 多 计算 机 的 使 用 会 有 加 速 比 的 法 在 增长 后 ， 让 我 们 转 而 探讨 
如 何 构成 多 处 理 机 或 多 计算 机 系统 。 一 台 并 行 计算 机 可 以 是 一 台 具 有 多 个 内 部 处 理 器 的 单 计 
算 机 ， 也 可 以 是 多 个 互联 的 计算 机 构成 一 个 一 体 的 高 性 能 计算 平台 。 在 本 节 我 们 将 论述 专门 
设计 的 并 行 计算 机 ， 而 在 本 章 的 后 面 将 讨论 使 用 非 定制 (现货 供应 ) 的 “商品 化 ”计算 机 所 





计算 /通信 比 = 





[本 
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构成 的 机 群 。 术 语 并 行 计算 机 (parallel computer) 通常 是 指 专门 设计 的 部 件 。 现 在 主要 有 两 
种 基本 的 并 行 计算 机 类 型 : 

1) 共享 存储 器 多 处 理 机 。 

2) 分 布 式 存储 器 多 计算 机 。 


1.3.1 共享 存储 器 多 处 理 机 系统 


如 图 1-5 所 示 ， 一 台 通 常 的 计算 机 是 由 执行 存放 于 主 存储 器 中 程序 的 处 理 器 组 成 的 。 计 算 
机 主 存储 器 中 的 每 个 单元 由 称 为 其 地 址 (address) 的 数字 所 定位 ， 当 地 址 有 4b 位 (二进制 位 ) 
时 ， 地 址 从 0 开始 直至 2*-1。 

扩展 单 处 理 器 模型 的 一 个 自然 方法 是 使 多 个 处 理 器 连 到 多 个 存储 器 模块 ， 以 使 得 每 个 处 
理 器 能 以 共享 存储 器 (shared memory) 配置 的 形式 访问 任 指令 (到 处 理 器 ) 
意 一 个 存储 器 模块 ， 如 图 1-6 所 示 。 处 理 器 和 存储 器 之 间 的 ”数据 ee 
连接 是 通过 某 种 互联 网 络 (interconnection network ) 实现 的 。 来 自 处 理 器 ) 
共享 存储 器 的 多 处 理 机 系统 使 用 单一 编 址 空间 (single 
address space )， 这 意味 着 在 整个 主 存储 器 系统 中 的 每 一 个 单 ; 
元 有 一 个 唯一 地 址 , 用 此 地 址 每 个 处 理 器 就 可 以 访问 该 单元 。 处 理 器 


虽然 在 这 些 “ 模 型 ”中 没有 显示 出 来 ， 但 在 实际 的 系统 中 都 
有 高 速 缓冲 存储 器 ， 稍 后 我 们 将 对 其 作 进一步 讨论 。 图 1-5 由 单 处 理 器 和 主 存储 器 所 
对 共享 存储 器 多 处 理 机 进行 编程 涉及 到 在 共享 存储 器 中 组 成 的 普通 计算 机 


存 有 可 由 每 个 处 理 器 执行 的 代码 。 每 个 程序 所 需 的 数据 也 将 。 
存 二 共享 存储 器 中 ， 因 此 如 有 需要 的 话 ， 每 个 程序 可 访问 所 “了 12 
有 的 数据 。 可 用 不 同方 法 由 程序 员 为 处 理 器 建立 可 执行 代码 
和 共享 数据 ， 但 其 最 终结 果 必 须 是 使 每 个 处 理 器 在 共享 存储 
器 执行 它 自 己 的 程序 和 代码 。( 通 常 是 所 有 处 理 器 执行 相同 
的 程序 .) 

程序 员 为 每 个 处 理 器 生成 可 执行 代码 的 一 种 方法 是 使 用 
一 种 新 的 、 高 级 并 行程 序 设计 语言 ， 它 具有 特殊 的 并 行程 序 
设计 构造 和 语句 ， 以 声明 共享 变量 和 并 行 代码 段 。 然 后 由 编 图 1-6 传统 的 共享 存储 器 多 
译 器 根据 程序 员 对 程序 的 说 明 来 产生 最 后 的 可 执行 代码 。 但 处 理 机 模型 
是 全 新 的 并 行程 序 设计 语言 对 程序 员 来 讲 不 是 流行 的 语言 。 较 受 欢迎 的 方法 是 使 用 编译 器 从 
程序 员 的 “ 原 代码 ”生成 并 行 代码 ， 此 时 使 用 规则 的 顺序 编程 语言 ， 再 用 预 处 理 器 命令 对 程 
序 中 的 并 行 性 加 以 说 明 。 该 方法 的 一 个 例子 是 OpenMP[Chandra et al.，2001]， 它 是 具有 编译 
器 命令 和 构造 的 一 个 工业 标准 ， 可 融入 到 C/C++ 和 Fortran 语 言 中 。 另 外 也 可 使 用 线 相 
(threads ) ， 线 程 中 含有 为 各 个 处 理 器 执行 的 规整 的 高 级 语言 代码 序列 。 这 些 代码 序列 可 用 来 
访问 共享 单元 。 已 开发 了 好 多 年 的 、 但 仍 令 人 感 兴趣 的 另 一 种 方法 是 使 用 一 个 规则 的 顺序 纺 
程 语言 ， 并 修改 语法 以 说 明 并 行 性 。 该 方法 的 一 个 最 近 例子 是 UPC (统一 并 行 C，Unified 
Parallel C) (参见 http://upc.gwu.edu)。 在 第 8 章 中 将 详细 叙述 如 何 具体 使 用 线程 和 其 他 方法 对 
共享 存储 器 系统 进行 编程 。 

从 程序 员 观 点 来 看 ， 共 享 存储 器 多 处 理 机 是 很 有 吸引 力 的 ， 因 为 它 方便 了 对 数据 的 共享 。 
图 1-7 中 所 示 的 基于 总 线 互联 结构 的 小 型 (2- 处 理 器 和 4- 处 理 器 ) 共享 存储 器 多 处 理 机 系统 是 
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很 流行 的 ， 例 如 双 - 奔 腾 (dual-Pentium ) 和 四 -奔腾 (quad-Pentium ) 系统 。 特 别 是 2- 处 理 器 
共享 存储 器 系统 非常 经 济 有 效 。 但 是 用 硬件 来 达到 所 有 处 理 器 对 所 有 存储 器 的 快速 访问 是 很 
困难 的 ， 特 别 是 在 有 大 量 处 理 器 时 。 因 此 大 多 数 大 型 的 共享 存储 器 系统 都 具有 某 种 形式 的 层 
次 或 分 布 式 存储 器 结构 ， 以 使 处 理 器 能 以 更 快 的 速度 访问 物理 上 相近 的 处 理 单元 (与 访问 远 
距离 的 存储 单元 相 比 较 )。 在 这 种 情况 下 使 用 非 均 匀 存 储 器 存 取 (NUMA ，nonuniform 
memory access ) 术语 ， 以 区 别 于 均匀 存储 器 存 取 (UMA ，uniform memory access ) 。 


处 理 器 共享 存储 器 





图 1-7 小 型 共享 存储 器 多 处 理 机 的 简 图 


普通 的 单 处 理 器 都 有 快速 的 高 速 缓存 以 保存 近期 访问 主 存储 器 单元 的 副本 ， 这 样 就 可 减 
少 对 主 存储 器 的 访问 。 通 常 在 处 理 器 和 主 存储 器 间 有 两 级 高 速 缓 在。 在 共享 存储 器 多 处 理 机 
中 继续 保留 高 速 缓存 是 为 了 给 每 个 处 理 器 提供 一 个 自己 的 本 地 高 速 缓存 。 每 个 处 理 器 具有 快 
速 的 本 地 高 速 缓存 可 在 某 种 程度 上 在 更 大 系统 中 缓和 对 不 同 的 主 存储 器 的 不 同 访问 时 间 的 问 
题 ， 但 要 使 在 不 同 高 速 缓存 中 的 相同 数据 拷贝 保证 一 致 是 必须 考虑 的 一 个 复杂 问题 。 当 一 个 
处 理 器 对 已 高 速 缓存 的 数据 项 进行 写 人 时 ， 通 常 需要 使 系统 中 所 有 其 他 已 高 速 缓 存 的 拷贝 变 
为 无 效 。 在 第 8 章 中 将 简要 地 论述 这 些 问 题 。 


1.3.2 消息 传递 多 计算 机 


另 一 种 多 处 理 机 系统 的 形式 可 以 通过 互联 网 络 连接 多 台 完 整 的 计算 机 来 构成 。 如 图 1-8 所 
示 。 图 1-8 中 每 台 计 算 机 由 一 个 处 理 器 和 本 地 主 存储 器 组 成 ， 其 他 处 理 器 不 可 访问 该 本 地 的 主 
存储 器 。 系 统 中 的 互联 网 络 是 供 处 理 器 间 传 递 消息 用 的 。 这 些 消 息 可 能 含有 由 程序 所 指明 的 
其 他 处 理 器 进行 计算 时 所 需 的 数据 。 这 种 多 处 理 机 系统 通常 称 为 消息 传递 多 处 理 机 
(message-passing mnultiprocessor)， 或 简称 多 计算 机 (mnulticomputer)， 特 别 是 如 果 它 们 是 由 
能 独立 运行 的 自 含 式 计算 机 组 成 时 。 

对 消息 传递 多 计算 机 进行 编程 仍 涉及 到 将 问题 分 解 为 各 个 部 分 ， 以 使 每 个 部 分 能 同时 执 
行 以 完成 求解 。 也 可 使 用 并 行 或 扩展 的 顺序 语言 进行 编程 ， 但 一 个 更 通用 的 方法 是 使 用 消息 
传递 库 例 程 ， 这 些 库 例 程 与 通常 的 顺序 程序 相连 接 以 进行 消息 传递 。 我 们 常 提 到 进程 
(process) 这 一 术语 ， 一 个 问题 可 被 分 成 为 多 个 并 发 进程 ， 它 们 可 在 各 台 计 算 机 上 分 别 执行 。 
如 果 有 6 个 进程 和 6 台 计 算 机 ， 则 我 们 可 在 每 台 计 算 机 上 执行 一 个 进程 ; 如 果 进 程 数 大 于 计算 
机 数 ， 则 在 一 台 计 算 机 中 就 可 能 以 分 时 方式 执行 多 个 进程 。 进 程 间 将 通过 发 送 消 息 进行 通信 ， 
这 是 在 进程 间 分 布 数据 和 结果 的 唯一 方法 。 

消息 传递 多 计算 机 比 共 享 存储 器 多 处 理 机 更 容易 在 物理 上 加 以 扩展 (scale)。 也 就 是 说 ， 
它 更 易 构 成 较 大 规模 。 有 一 些 专 门 设计 的 消息 传递 的 处 理 器 的 例子 。 然 而 ， 消 息 传 递 系 统 也 
可 使 用 通用 计算 机 系统 。 

1. 多 计算 机 网 络 

图 1-8 中 所 示 的 互联 网 络 的 作用 是 为 从 一 台 计 算 机 向 另 一 台 计 算 机 传递 消息 提供 物理 通 
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路 。 网 络 设计 中 的 一 些 关键 问题 是 带宽 (bandwidth)、 时 延 (latency) 和 成 本 (cost)。 易 于 
构造 这 一 点 也 很 重要 。 带 宽 是 指 在 单位 时 间 内 可 传输 的 位 数 (二 进 制 位 )， 以 bits/sec (位 / 秒 ) 
表示 。 网 络 时 延 (network latency) 是 指 消息 经 过 网 络 传输 时 所 需 的 时 间 。 通 信 时 苑 
(communication latency) 是 指 发 送 消 息 所 需 的 总 时 间 ， 包 括 软件 开销 和 接口 延迟 。 消 息 时 延 
(message latency ) 或 启动 时 间 (startup time), 这 
是 指 发 送 0 长 度 消息 所 需 的 时 间 ， 这 实质 上 是 发 送 
消息 时 所 需 的 软 、 硬 件 开销 (查找 路 由 、 打 包 、 解 
包 等 )， 还 必须 加 上 沿 互联 通路 发 送 数 据 所 需 的 确 
切 传 送 时 间 。 

两 个 结 点 之 间 路 经 的 物理 链 路 数 是 一 个 重要 的 
考虑 因素 ， 因 为 它 是 确定 消息 延 时 的 主要 因素 。 网 
络 直 径 (diameter) 是 网 络 内 两 个 相距 最 远 的 结 点 
(计算 机 ) 间 的 最 小 链 路 数 。 应 注意 的 是 只 考虑 最 
短路 由 。 如 何 用 具有 特定 网 络 的 多 计算 机 有 效 地 求 。 图 1-8 消息 传递 多 处 理 机 模型 《多 计算 机 ) 
解 并 行 应 用 问题 是 非常 重要 的 。 网 络 直径 给 定 了 单个 消息 必须 经 历 的 最 大 距离 ， 它 可 为 某 些 
并 行 算法 找 出 通信 的 下 限 。 

网 络 的 对 分 宽度 (bisection width ) 是 指 当 将 网 络 分 成 两 个 相等 的 部 分 时 ， 所 必须 切割 的 
链 路 (有 时 为 线 ) 数 。 对 分 带宽 (bisection bandwidth) 是 在 这 些 链 路 上 的 集合 带宽 ， 即 从 被 
分 割 网 的 一 部 分 向 另 一 部 分 在 单位 时 间 内 可 传送 的 最 大 位 数 。 这 两 个 因数 在 评估 并 行 算法 时 
也 非常 重要 。 并 行 算法 通常 需要 数据 在 网 络 中 移动 。 要 将 数据 从 网 络 的 一 部 分 移 向 另 一 部 分 
必须 使 用 处 于 两 部 分 之 间 的 链 路 ， 而 对 分 宽度 指明 的 是 可 用 的 链 路 数 。 

有 好 几 种 方法 可 用 来 互联 计算 机 以 形成 多 计算 机 系统 。 对 于 非常 小 的 系统 可 以 考虑 用 链 
路 将 每 一 台 计 算 机 与 其 他 所 有 计算 机 互联 起 来 。 对 于 c 台 计算 机 ， 则 总 共 需 要 c (c-1)/2 条 链 路 。 
这 种 穷尽 的 互联 仅 适 用 于 非常 小 的 系统 。 例 如 ，4 台 计算 机 的 集合 采用 穷尽 互联 就 较为 恰当 。 
然而 当 规 模 增 加 时 ， 互 联 数 就 会 变 得 很 大 ， 因 而 从 经 济 和 工程 角度 来 看 再 采用 穷尽 互联 就 不 
现实 了 。 那 时 我 们 就 需要 考虑 具有 有 限 互 联 和 交换 式 互联 的 网 络 。 

有 两 类 广泛 使 用 的 具有 有 限 直接 互联 的 网 络 -网 格 (mesh) 网 络 和 超 立 方 体 (hypercube ) 
网 络 。 作 为 互联 网 络 它们 不 但 是 重要 的 ， 而 且 它 们 
的 概念 也 出 现在 并 行 算法 的 工程 中 。 

(1) 网 格 ”二 维 网 格 是 指 在 二 维 阵列 中 的 每 个 
结 点 能 与 其 4 个 最 邻近 的 结 点 相连 的 网 络 ， 如 图 1-9 
所 示 。 一 个 Vp x Vp 网 格 的 网 络 直径 为 2( Vp -1)， 
因为 从 一 个 角 结 点 到 一 个 对 顶 角 结 点 需要 横 跨 
( Jp -1) 个 结 点 ， 再 向 下 经 过 ( Vp -1) 结 点 。 
如 果 将 网 格 中 的 所 有 自由 端 结 点 与 其 对 立 端的 结 点 
循环 相连 ， 则 就 构成 了 环绕 网 〈torus )。 

网 格 和 环绕 网 〈torus network ) 非常 流行 ， 因 
为 它们 很 容易 排列 和 扩展 。 必 要 时 还 可 将 网 络 折 音 
(fold)， 即 对 结 点 进行 行 交 叉 和 列 交叉 的 排列 ， 从 
而 可 使 围绕 连接 变 成 简单 的 折 回 连接 ， 而 不 再 是 从 








图 1-9 二 维 阵列 (网 格 ) 
一 边 伸展 到 另 一 边 。 三 维 网 格 可 用 这 样 一 种 方法 形成 ， 即 每 个 结 点 在 +，y 和 z 的 三 个 平面 中 ， 
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各 与 两 个 结 点 相连 。 在 许多 科学 和 工程 问题 中 ,使 用 网 格 结构 非常 方便 ， 因 为 在 这 些 问题 中 ， 
求解 点 常 排列 成 二 维 或 三 维 阵列 。 

已 有 好 多 个 使 用 二 维 或 三 维 网 格 构成 消息 传递 多 计算 机 系统 的 实例 ， 其 中 包括 Intel 的 
Touchstone Delta 计 算 机 (二 维 网 格 ，1991 年 交付 使 用 )， 以 及 1991 年 在 MIT 研 制 成 的 三 维 网 格 
的 样机 ，J-machine。 更 近期 使 用 网 格 的 例子 是 美国 能 源 部 加 速 战略 计算 创新 计划 于 1995-97 所 
开发 的 ASCI Red 超 级 计算 机 。ASCI Red 落 成 在 Sandia 美 国 国家 实验 室 ， 由 9472 个 Pentium-II 
Xeon (自强 ) 处 理 器 组 成 ， 并 使 用 了 一 个 进行 消息 传 
递 的 38 x 32 x 2 网 格 互联 。 网 格 也 可 用 在 共享 存储 器 
系统 中 。 

(2) 超 立 方 体 网 络 在 一 个 d 维 (二 元 ) 超 立 方 体 
网 络 中 ， 每 个 结 点 与 网 络 中 每 一 维 上 的 一 个 结 点 相连 
接 。 例 如 在 一 个 三 维 超 立 方 体 中 ，x 方 向 、y 方 向 和 z 方 
向 的 连接 形成 一 个 立方 体 ， 如 图 1-10 所 示 ， 一 个 d 维 超 
立方 中 的 每 一 结 点 ,将 被 分 配 一 个 d 位 (二 进位 ) 地 址 。 
每 一 位 相应 于 一 维 ， 它 可 以 是 0 或 1， 表 示 在 该 维 上 的 2 图 1-10 三 维 超 立方 体 
个 结 点 。 在 一 个 三 维 超 立方 体 中 的 结 点 将 有 一 个 3 位 地 址 。 结 点 000 将 与 地 址 为 001，010 和 100 
的 结 点 相连 。 结 点 111 将 与 结 点 110，101 和 011 相 连 。 应 注意 的 是 与 每 个 结 点 相连 的 那些 结 点 
仅 与 该 结 点 的 地 址 相差 1 位 ， 这 一 特征 ， 可 扩展 到 具有 更 高 维 的 超级 立方 体 。 例 如 ， 在 一 个 五 
维 的 超 立 方 体 中 ， 结 点 11101 将 与 结 点 11100、11111、11001、10101 以 及 01101 相 连 。 

超 立 方 体 的 一 个 显著 优点 是 ， 如 果 超 立方 体 有 p 个 结 点 ， 则 它 的 网 络 直 径 将 由 log2p 给 定 ， 
它 随 p 的 增加 而 合理 地 ( 低 ) 增加 。 从 每 个 结 点 发 出 的 链 路 数 也 只 按 对 数 增长 。 超 立方 体 的 另 
一 个 非常 方便 的 地 方 是 存在 有 最 小 距离 的 无 死 锁 路 由 算法 。 为 更 好 地 叙述 该 算法 ， 让 我 们 从 
具有 结 点 地 址 X = Xn-1Xn-2° "XIXO 的 结 点 X 开 始 路 由 一 个 消息 到 结 点 地 址 为 三 yn-1yn-2…y1yo 的 目 
的 结 点 Y。 了 中 的 每 一 位 若 与 X 中 的 对 应 位 不 同 ， 则 表明 在 该 维 上 应 该 路 由 消息 ,而 两 者 (地 址 
位 ) 的 不 同 是 可 通过 执行 对 应 地 址 位 对 的 异 或 操作 Z = X@7 发 现 的 。Z 位 为 1 的 那些 位 ， 均 应 
该 进行 路 由 。 处 于 路 径 上 的 每 个 结 点 ， 要 执行 当前 结 点 地 址 和 目的 结 点 地 址 的 异 或 操作 。 通 
常 选择 Z 中 的 最 高 有 效 位 为 1 的 那 一 位 作为 路 由 的 开始 。 例 如 ， 在 一 个 六 维 超 立 方 体 中 ， 要 从 
结 点 13 (001101) 路 由 到 结 点 42 (101010)， 则 将 是 从 结 点 13 路 由 到 结 点 45(101101), 再 到 结 点 
41 (101001 )， 再 到 结 点 43 (101011)， 最 后 到 达 结 点 42 (101010)。 超 立方 体 路 由 算法 有 时 
称 为 e- 立 方 体 路 由 算法 (e-cube routing algorithm )， 或 从 左 到 右 的 路 由 (left-to-right routing ) 。 

一 个 d 维 超 立 方 体 实际 是 由 两 个 4-1 维 超 立 方 体 用 第 d 维 链 路 将 两 者 连接 起 来 而 组 成 的 。 图 
1-11 中 示 出 了 由 两 个 三 维 超 立方 体 用 8 条 连接 画 出 的 四 维 超 立方 体 。 因 此 它 的 对 分 宽度 为 8 
(一 个 p 结 点 超 立 方 体 的 对 分 宽度 为 p/2)。 一 个 五 维 的 超 立 方 体 是 由 两 个 四 维 超 立 方 体 以 及 它 
们 之 间 的 连接 所 组 成 的 ， 用 这 种 方法 可 构成 更 大 的 超 立 方 体 。 在 一 个 实际 系统 中 ， 网 络 必须 
设计 成 是 二 维 或 是 三 维 的 。 

超 立 方 体 是 更 大 的 k 元 4d 立方 体系 列 中 的 一 部 分 ， 但 仅 有 二 元 超 立 方 体 (上 = 2) 在 多 计算 
机 构造 和 并 行 算法 中 起 到 重要 作用 。20 世 纪 80 年 代 初 期 ， 由 于 在 美国 加 州 理工 学 院 建 成 了 称 
为 Cosmic Cube 的 先驱 研究 系统 [Seitz, 1985]， 此 后 超 立 方 体 网 络 便 成 为 构造 消息 传递 多 计算 
机 的 流行 方式 。 但 自 80 年 代 后 期 起 对 超 立 方 体 网 络 的 兴趣 已 经 减弱 。 

在 各 个 计算 机 间 进 行 直接 连接 的 另 一 种 方法 是 在 各 种 配置 中 使 用 交换 器 来 路 由 消息 。 
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图 1-11 四 维 超 立方 体 

(3) 纵横 交叉 交换 器 纵横 交叉 交换 器 通过 为 每 一 个 连接 使 用 一 个 交换 器 来 提供 完全 的 连 
接 。 纵 横 交 叉 交 换 器 在 共享 存储 器 系统 中 的 使 用 比 在 消息 传递 系统 中 多 ， 用 以 连接 处 理 器 与 
存储 器 。 纵 横 交 叉 交 换 器 的 线路 图 如 图 1-12 所 示 。 已 
有 许多 系统 的 实例 在 系统 的 某 一 层次 上 使 用 纵横 交叉 
交换 器 ， 特 别 是 在 具有 很 高 性 能 的 系统 中 。 我 们 的 一 
个 学 生 在 20 世 纪 70 年 代 曾 建成 一 个 纵横 交叉 交换 器 多 
处 理 机 系统 [Wilkinson and Abachi，1983]。 

(4) 树 状 网 “ 另 一 种 交换 器 的 配置 是 使 用 二 又 树 
(binary tree )， 如 图 1-13 所 示 。 树 中 的 每 个 交换 器 
( 结 点 ) 有 2 条 链 路 与 位 于 其 下 层 的 2 个 结 点 相连 ， 就 
如 同 网 络 从 根 结 点 扇 出 一 样 。 这 一 特定 的 树 称 为 完全 
二 又 树 。 因 为 每 一 层 均 是 占 满 的 。 树 的 高 度 是 从 根 到 


处 理 器 





最 低层 叶 的 链 路 数 。 树 结构 的 一 个 主要 特点 是 其 高 度 图 1-12 纵横 交叉 交换 器 
与 叶 结 点 数 成 对 数 关系 ; 对 于 一 个 有 p 个 处 理 器 (在 

叶 结 点 上 ) 的 二 叉 树 ， 它 将 有 log2p 层 交换 器 。 树 状 根 

网 可 以 是 非 完全 的 ， 也 可 以 是 非 二 又 的 。 在 一 个 m 叉 链 路 处 理 单元 


树 中 ， 每 个 结 点 将 与 其 下 一 层 的 m 个 结 点 相连 。 

在 均匀 请 求 的 模式 下 ， 接 近 根 结 点 处 的 通信 量 会 
变 得 很 大 ， 从 而 可 能 成 为 性 能 瓶颈 。 在 粗 树 网 络 (fat 
tree network ) 中 [Leiserson，1985]， 链 路 数 越 接 近 根 
结 点 处 时 就 越 多 。 在 二 又 粗 树 中 ， 随 二 叉 树 层 间 的 需 ”处 理 器 
求 ， 以 并 行 方 式 增加 链 路 数 ， 而 越 接近 根 结 点 处 时 ， 图 1-13 树 结构 
就 越 增加 更 多 的 链 路 数 。Leiserson 按 此 思想 提出 一 种 
通用 粗 树 〈universal fat tree)， 在 这 种 树 中 ， 趋 向 根 结 点 的 结 点 间 的 链 路 数 将 指数 式 地 增加 ， 
从 而 允许 趋 近 根 结 点 处 的 通信 量 的 增加 ， 以 达到 减 小 通信 瓶颈 的 目的 。 以 这 种 粗 树 互 联网 络 
所 设计 的 非常 著名 的 计算 机 是 Thinking Machine 公司 的 Connectim Machine CM5 计 算 机 ， 它 使 
用 的 是 4 又 粗 树 [Hwang,1993]。 粗 树 在 此 后 也 一 直 被 使 用 。 例 如 ，Quadrics QsNet 网 (参见 
http://www.quadrics.com ) 就 使 用 粗 树 。 

(5) 多 级 互联 网 多 级 互联 网 (multistage interconnection network，MIN) 是 一 类 含有 多 
种 配置 的 具有 相同 特征 的 多 级 交换 器 。 在 某 一 级 上 的 交换 器 与 其 邻接 的 交换 器 以 各 种 对 称 的 
方式 相连 ， 以 形成 从 网 络 的 一 边 到 另 一 边 的 一 个 通路 (有 了 时 是 反 向 的 )。 多 级 互联 网 的 一 个 例 
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子 是 示 于 图 1-14 的 Omega 网 络 (有 8 个 输入 和 输出 )。 借 助 目的 地 址 该 网 络 有 一 个 非常 简单 路 
由 算法 。 如 图 1-14 中 所 示 ， 输 入 和 输出 用 地 址 给 定 。 每 个 交换 单元 需要 一 个 控制 信号 以 选择 
是 上 输出 或 是 下 输出 (0 表示 是 上 输出 ，1 表 示 是 下 输出 )。 目 的 地 址 的 最 高 位 用 来 控制 第 1 级 
中 的 交换 器 ; 若 最 高 位 为 0， 就 选择 上 输出 ， 若 为 1， 就 选择 下 输出 。 目 的 地 址 的 次 高 位 用 来 
选择 下 一 级 的 交换 器 输出 ， 如 此 等 等 ， 直 到 选择 出 最 后 的 输出 。 尽 管 在 一 个 自由 网 中 总 是 可 
以 连通 任意 的 一 个 输入 到 任意 的 一 个 输出 ， 但 Omega 网 络 是 高 度 阻塞 的 。 

多 级 互联 网 已 有 很 长 的 历史 ， 它 最 初 是 为 电话 交换 机 而 开发 的 ， 它 有 时 仍 被 用 来 互联 计 
算 机 或 计算 机 组 以 构成 真正 大 型 的 系统 。 例 如 ，ASCI White 超级 计算 机 就 使 用 Omega 多 级 互 
联网 。 有 关 多 级 互联 网 的 更 多 信息 请 参见 [Duato，Yalamanchili，and Ni，1997]。 


2 x 2 交换 单元 
(直通 或 灾 叉 连接 ) 
| 
000 000 
001 001 
010 010 
011 011 
输入 输出 
100 100 
101 101 
110 110 
111 111 
图 1-14 Omega 网 络 
2. 通信 方法 


将 一 个 消息 从 源 结 点 传送 到 目的 结 点 的 理想 情况 是 在 它们 之 间 有 一 条 直接 链 路 。 但 在 大 
多 数 系统 和 计算 中 ， 将 消息 从 源 结 点 路 由 到 目的 结 点 时 ， 常 需要 经 过 中 间 结 点 ， 有 两 种 方法 
可 将 消息 从 源 送 到 目的 地 : 电路 交换 (circuit switching ) 和 包 交 换 (packet switching ) 。 

电路 交换 需 在 源 和 目的 地 之 间 建 立 通路 ， 并 维持 消息 途径 的 所 有 链 路 的 畅通 。 传 递 所 需 
的 链 路 均 被 保留 ， 直 至 消息 传递 结束 。 简 单 的 电话 系统 (不 使 用 先进 的 数字 技术 ) 是 电路 交 
换 系 统 的 一 个 例子 。 一 旦 电话 接 通 ， 线 路 就 保持 连接 ， 直 至 通话 结束 。 电 路 交换 被 使 用 在 某 
些 早 期 的 多 计算 机 中 (如 Intel IPSC-2 超 立方 体系 统 )， 其 缺陷 是 在 整个 传递 消息 过 程 中 ， 要 强 
行 保留 通路 中 的 所 有 链 路 ， 在 消息 传递 结束 之 前 ， 不 允许 其 他 消息 使 用 通路 中 的 任 一 链 路 。 

在 包 交 换 中 ， 消 息 被 分 成 为 多 个 信息 “ 包 ”， 每 个 包 都 含有 源 地 址 和 目的 地 址 ， 以 在 互联 
网 络 中 路 由 该 包 。 包 有 一 个 最 大 尺寸 ， 例 如 1000 个 数据 字 节 ， 如 果 消 息 长 度 超过 此 值 ， 就 必 
须 将 此 消息 分 成 多 个 包 进 行 传递 。 在 包 被 传递 到 下 一 结 点 之 前 结 点 内 部 要 提供 的 缓冲 区 保留 
这 些 包 。 如 果 通 向 下 一 结 点 的 通路 被 封锁 ， 包 就 被 保留 在 缓冲 区 中 。 邮 递 系 统 是 包 交 换 系 统 
的 一 个 例子 。 信 件 从 邮箱 送 到 邮局 ， 并 在 一 些 中 间 站 中 处 理 ， 最 后 被 送 往 目 的 地 。 这 种 包 交 
换 形式 称 为 存储 转发 包 交 换 (store-and-forward packet switching )， 这 种 交换 允许 一 旦 当前 的 
包 被 转发 以 后 ， 其 链 路 就 可 由 其 他 包 使 用 。 不 幸 的 是 ， 刚 才 所 叙述 的 存储 转发 包 交 换 ， 由 于 
不 论 输 出 链 路 是 否 可 用 ， 必 须 将 包 首先 存 到 每 个 结 点 的 缓冲 区 中 ， 从 而 将 导致 显著 的 时 间 延 
迟 。 在 直通 (cutrthrough ) 交换 方式 中 ， 可 消除 这 种 需求 ， 这 种 交换 技术 最 初 是 为 计算 机 网 
络 开 发 的 [Kermani and Kleinrock，1979]。 在 直通 交换 中 ， 如 果 输 出 链 路 可 用 ， 则 消息 便 可 直 
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接 向 前 传递 而 无 需 存 入 结 点 的 缓冲 区 ， 即 “直通 ”"。 因 此 ， 如 果 整 个 通路 可 用 ， 则 消息 将 立即 
传送 到 目的 地 。 但 应 注意 的 是 ， 如 果 通 路 受阻 ， 则 就 需要 足够 的 存储 区 以 保留 正 被 接收 的 、 
完整 的 消息 / 包 。 

相对 于 通常 的 存储 转发 路 由 ，Seitz 提 出 另 一 种 称 为 虫 孔 《wormhole ) 的 路 由 方案 [Dally 
and Seitz，1987]， 以 减少 缓冲 区 大 小 及 减少 时 延 。 在 存储 转发 包 路 由 中 ， 消 息 完 整地 存储 在 
结 点 中 ， 当 输出 链 路 空闲 时 ， 就 将 整个 消息 送出 。 而 在 虫 孔 路 由 中 ， 消 息 被 分 成 比 包 更 小 的 
单位 ， 称 为 片 〈 流 控制 数字 )。 一 个 片 通常 为 1 个 或 2 个 字 节 [Leighton ，1992]。 结 点 间 的 链 路 
可 能 为 片 中 的 每 一 位 〈 二 进 制 ) 提供 一 条 链 路 以 使 片 能 并 行 传送 。 当 连接 链 路 可 用 时 ， 从 源 
结 点 向 下 一 结 点 传送 的 初始 消息 仅 是 消息 的 头 部 。 当 所 有 链 路 都 可 用 时 ， 消 息 的 各 后 继 片 才 
会 被 传送 ， 从 而 使 这 些 片 在 网 中 分 布 。 当 头 片 向 前 移动 时 ， 下 一 个 片 才 可 跟着 移动 ， 依 次 类 
推 。 在 结 点 之 间 必 须 有 一 个 请 求 /确认 系统 ， 以 “ 拖 动 ” 片 向 前 移动 。 当 一 个 片 已 准备 从 它 的 
缓冲 区 向 前 移动 时 ， 它 就 向 下 一 结 点 发 请 求 。 当 下 一 结 点 的 片 缓冲 区 为 空 时 ， 它 就 要 求 发 送 
结 点 发 送 该 片 。 当 消息 的 一 部 分 ( 片 ) 已 经 链接 时 ， 必 须 为 消息 传递 保留 整个 通路 。 因 此 它 
不 允许 其 他 消息 包 与 这 些 消息 片 交 叉 地 占用 这 些 链 路 。 

在 虫 孔 路 由 方法 中 ， 每 个 结 点 所 需 的 存储 容量 较 少 ， 且 由 它 导 致 的 时 延 与 通路 长 度 无 关 。 
[Ni and Mckinley，1993] 给 出 了 有 关 分 析 以 所 交换 
指明 在 虫 孔 路 由 方法 中 ， 时 延 与 通路 长 度 无 
关 。 如 果 消 息 片 的 长 度 远 小 于 整个 消息 长 度 ， 

[22] 则 虫 孔 路 由 的 时 延 将 为 常数 而 与 路 由 的 长 度 

无 关 。( 电 路 交换 具有 类 似 特 征 。) 与 之 相反 ， 网 络 时 延 


存储 转发 包 交 换 所 产生 的 时 延 近 似 地 正比 于 虫 孔 路 由 ， 电 路 交换 
路 由 长 度 。 图 1-15 对 此 作 了 说 明 。 
正如 我 们 已 见 到 的 ， 互 联网 络 需要 路 由 距离 ( 源 与 目的 之 间 的 结 点 数 ) 


算法 ， 以 在 结 点 间 找 到 一 条 通路 。 某 些 路 由 
算法 是 自 适应 的 ， 即 它们 依照 某 些 准则 ， 特 图 115 网 络 时 延 特征 
别 是 局 部 的 通信 和 量 情 况 ， 在 网 络 中 选择 不 同 的 通路 。 一 般 的 路 由 算法 ， 除 非 是 精心 设计 的 ， 
很 容易 导致 活 锁 (livelock) 和 死 锁 (deadlock)。 活 锁 特别 会 在 自 适应 路 由 算法 中 出 现 ， 它 
描述 这 样 一 种 情景 ， 即 一 个 消息 包 不 停 的 在 网 中 传送 ， 但 总 不 能 找到 其 目的 地 。 当 包 由 于 被 
其 他 等 待 转发 的 包 阻 塞 而 这 些 包 又 以 同样 的 方式 被 阻塞 以 致 于 没有 包 能 向 前 移动 时 就 发 生 了 
元 锁 。 
无 论 是 存储 转发 还 是 虫 孔 网 络 都 有 可 能 出 现 死 锁 。 出 现在 使 用 存储 转发 路 由 方法 的 通信 网 
中 的 死 锁 问题 ， 已 在 那样 的 环境 中 做 了 广泛 研究 。 有 关 在 任何 网 络 不 会 出 现 死 锁 的 路 由 算法 
的 数学 条 件 和 解决 方案 ， 可 参见 [Dally and Seitz，1987]。 避 免 死 锁 的 通常 方法 是 为 网 络 提供 
一 些 虚拟 通道 (virtual channel)， 每 个 虚拟 。 虚拟 通道 缓冲 区 
通道 由 自己 独立 的 缓 促 区 供 不 同类 型 的 消息 结 点 
使 用 。 物 理 链 路 或 通道 是 指 结 点 间 的 实际 硬 
件 链 路 。 多 个 虚拟 通道 与 一 个 物理 通道 相关 ， 
它们 分 时 共享 该 物理 通道 ， 如 图 1-16 所 示 。 
Dally 和 Seitz 提 出 了 使 用 独立 的 虚拟 通道 来 避 
免 在 虫 孔 网 络 中 可 能 出 现 的 死 锁 。 图 1-16 多 个 虚拟 通道 映射 到 一 个 物理 通道 


结 点 
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1.3.3 分 布 式 共享 存储 器 


对 程序 员 而 言 ， 消 息 传递 范例 不 如 共享 存储 器 范例 那样 有 吸引 力 。 因 为 它 通常 需要 程序 
员 在 它们 的 代码 中 使 用 显 式 的 消息 传递 调用 ， 而 这 又 非常 容易 出 错 ， 且 很 难 调试 。 因 而 很 类 
似 于 低级 的 汇编 语言 的 编程 (使 用 处 理 器 的 内 部 语言 编程 )。 数 据 不 能 共享 而 必须 拷贝 ， 在 一 
些 具体 应 用 中 这 很 可 能 成 为 问题 ， 因 为 这 些 应 用 问题 需要 对 大 量 数据 进行 多 次 操作 。 但 是 消 
息 传递 范例 具有 如 下 优点 ， 即 它 不 需要 专门 的 同步 机 制 以 控制 对 数据 的 同时 访问 。 如 果 使 用 
这 些 机 制 ， 则 将 显著 地 增加 并 行程 序 的 执行 时 间 。 

由 于 意识 到 从 编程 观点 而 言 期 望 使 用 共享 存储 器 范例 ， 一 些 研究 人 员 开 始 追求 分 布 式 共 
享 存储 器 系统 的 概念 。 如 其 名 字 所 提 及 的 那样 ， 在 这 种 系统 中 ， 存 储 器 物理 地 分 布 在 每 个 处 
理 器 中 ,但 每 个 处 理 器 使 用 单一 的 存储 器 地 址 空间 对 整个 存储 器 进行 访问 。 当 一 个 处 理 器 要 
访问 的 单元 不 在 本 地 存储 器 中 时 ， 必 须 使 用 消息 传递 方法 在 处 理 器 和 存储 器 单元 之 间 以 某 种 
自动 方式 进行 数据 的 传递 ， 以 隐藏 存储 器 是 分 布 的 这 一 事实 。 当 然 ， 远 程 访问 将 导致 更 大 的 
延迟 ， 而 且 比 起 本 地 访问 来 ， 此 延迟 常常 是 相当 大 的 。 

多 处 理 机 系统 可 设计 成 在 物理 上 存储 器 是 分 布 的， 但 运行 却 如 共享 存储 器 ， 且 对 程序 员 
来 讲 犹 如 一 个 共享 存储 器 。 已 有 不 少 研究 项 目 试图 用 专门 设计 的 硬件 达到 这 一 目的 ， 而 且 已 
出 现 基于 这 一 思想 的 商品 化 系统 。 也 许 最 受 青睐 的 方法 是 使 用 联网 的 计算 机 。 在 一 组 联网 的 
计算 机 上 实现 分 布 式 共享 存储 器 的 一 种 方法 是 使 用 现 有 的 单 计 算 机 上 的 虚拟 存储 器 管理 系统 ， 
几乎 在 所 有 的 系统 中 都 提供 了 这 一 管理 系统 以 管理 它 的 本 地 存储 器 层次 结构 。 可 将 虚拟 存储 
器 管理 系统 加 以 扩展 ， 以 使 得 分 布 在 不 同 计算 机 中 的 存储 器 在 感觉 上 是 全 局 共享 存储 器 。 这 
一 思想 被 称 为 是 共享 虚拟 存储 器 (shared virtual memory)。 共 享 虚拟 存储 器 的 最 先 开发 者 之 
一 是 LifLi，1986]。 还 有 一 些 实现 分 布 式 共 享 存储 器 
的 其 他 方法 ， 它 们 不 需要 使 用 虚拟 存储 器 管理 系统 或 
专用 硬件 。 不 管 如 何 ， 该 系统 在 物理 上 如 同 图 1-8 所 示 消息 一 一 
的 消息 传递 多 计算 机 那样 ， 除 了 现在 本 地 的 存储 器 变 
成 了 共享 存储 器 的 一 部 分 之 外 ， 而 且 还 如 图 1-17 所 说 
明 的 那样 它 可 由 所 有 处 理 器 加 以 访问 。 共享 存 

在 第 8 章 介绍 共享 存储 器 编程 的 基本 概念 后 ， 第 9 伟 
章 将 详细 考察 分 布 式 共享 存储 器 系统 的 实现 和 编程 。 
共享 存储 器 和 消息 传递 均 应 被 视 为 编程 范例 ， 它 们 中 图 1-17 共享 存储 器 多 处 理 机 
的 任何 一 个 均 可 是 任何 类 型 多 处 理 机 的 编程 模型 ， 尽 管 特定 系统 可 以 被 设计 成 是 这 样 或 是 那样 。 

应 指出 的 是 ， 在 一 个 消息 传递 系统 上 实现 的 DSM 通 常 不 具有 一 个 真正 共享 存储 器 系统 的 
性 能 ， 也 不 会 有 在 消息 传递 系统 上 直接 使 用 消息 传递 的 性 能 。 








1.3.4 MIMD 和 SIMD 的 分 类 


在 单 处 理 机 计算 机 中 ， 由 程序 生成 的 是 一 个 单 指令 流 。 这 些 指令 对 数据 项 进行 运算 ， 
Flynn (1996) 创造 了 一 种 计算 机 分 类 方法 ， 将 这 种 形式 的 单 处 理 器 计算 机 称 为 单 指令 流 单数 
据 流 (single instruction stream-single data stream，SISD ) 计算 机 。 在 一 个 通用 的 多 处 理 机 系 
统 中 ， 每 个 处 理 器 拥有 一 个 独立 的 程序 ， 由 每 个 程序 为 每 一 个 处 理 器 生成 一 个 指令 流 ， 每 条 
指令 对 不 同 的 数据 进行 操作 。Flynn 将 这 种 计算 机 分 类 为 多 指令 流 多 数据 流 (multiple 
instruction stream- multiple data stream，MIMP ) 计算 机 。 到 目前 为 止 所 叙述 的 共享 存储 器 或 
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消息 传递 多 处 理 机 都 属于 MIMD 类 型 。 术 语 MIMD 已 经 受 了 时 间 的 考验 ， 至 今 仍 被 广泛 地 用 于 
在 这 种 操作 模式 下 的 计算 机 系统 中 。 

除了 上 述 的 SISD 和 MIMD 的 两 个 极端 情形 外 ， 如 果 对 某 些 应 用 而 言 将 计算 机 设计 成 由 单一 
程序 生成 指令 流 ， 但 却 有 多 个 数据 流 存 在 时 ， 将 会 在 性 能 上 有 很 大 优势 。 源 于 程序 的 指令 被 广 
播 到 多 个 处 理 器 。 每 个 处 理 器 实质 上 是 一 个 没有 (程序 ) 控制 器 的 算术 运算 处 理 器 。 由 一 个 独 
立 的 控制 器 负责 从 存储 器 中 取出 指令 并 将 这 些 指令 发 送 到 各 个 处 理 器 中 。 每 个 处 理 器 同步 执行 
相同 的 指令 ， 但 使 用 不 同 的 数据 。 为 灵活 起 见 ， 可 以 禁止 某 些 处 理 器 参加 指令 的 运算 。 由 数据 
项 形成 一 个 阵列 ， 在 一 个 指令 周期 内 指令 对 整个 阵列 进行 运算 。Flynn 将 这 类 计算 机 称 为 单 指 
令 流 多 数据 流 (single instruction stream- multiple data stream, SIMD) 计算 机 。 开 发 SIMD 计 算 
机 的 原因 是 因为 有 许多 重要 应 用 绝 大 部 分 都 对 数据 阵列 进行 运算 。 例 如 大 多 数 物理 系统 的 计算 
机 模拟 (从 分 子 系统 到 天 气 预报 )， 均 是 以 必须 处 理 的 巨大 数据 点 阵列 开始 。 另 一 个 重要 应 用 
领域 是 低层 图 像 处 理 ， 此 时 需 对 图 像 的 图 元 素 (像素 ，Pixel) 加 以 存储 和 加 工 ， 如 像 将 在 第 12 
章 中 所 叙述 的 那样 ， 如 果 系 统 能 同时 对 数据 点 完成 相似 操作 ， 则 不 但 硬件 能 有 效 地 工作 ， 也 使 
编程 变 得 更 为 简单 。 该 程序 简单 地 由 对 数据 点 阵列 进行 运算 的 单 指令 序列 和 由 一 个 独立 的 控制 
器 执行 通常 的 控制 指令 所 组 成 。 在 本 教科 书 中 ， 我 们 将 不 讨论 SIMD 计 算 机 ， 因 为 它们 是 为 某 
种 特殊 应 用 而 专门 设计 的 计算 机 。 当 今 的 计算 机 为 多 媒体 和 图 形 应 用 设置 有 SIMD 指 令 。 例 如 
从 奔腾 II 开始 的 奔腾 系列 增加 了 称 为 MMX (MultiMedia eXtension) 的 这 种 SIMD 指 令 以 加 速 对 
多 媒体 和 其 他 应 用 的 处 理 ， 这 些 应 用 需要 在 不 同 的 数据 上 完成 相同 的 操作 。 

Flynn 分 类 的 第 四 种 组 合 ， 即 多 指令 流 单 数据 流 (multiple instruction stream- single data 
stream, MISD ) 计算 机 ， 实 际 上 并 不 存在 ， 除 非特 别 地 将 流水 体系 结构 归 为 这 一 类 ， 或 是 把 
某 些 容错 系统 归 为 这 一 类 。 

在 我 们 所 关心 的 MIMD 类 别 中 ， 每 个 处 理 器 执行 自己 的 程序 。 这 可 被 描述 为 多 程序 多 数 
据 (multiple program multiple data, MPMD ) 结构 ， 如 图 1-18 所 示 。 当 然 所 有 要 执行 的 程序 可 
能 是 不 同 的 ， 但 通常 只 需 编写 两 个 源 程序 ， 其 中 一 个 供 指 定 的 主 处 理 器 使 用 ， 而 另 一 个 则 供 
其 余 称 为 从 处 理 器 的 处 理 器 使 用 。 我 们 可 以 
使 用 或 不 得 不 使 用 的 一 种 编程 结构 是 单程 序 
多 数据 (single program multiple data, 
SPMD ) 结构 。 在 此 种 结构 中 ， 只 需 编 写 一 
个 源 程序 ， 每 个 处 理 器 将 执行 该 程序 自身 的 
拷贝 。 虽 然 它 们 是 独立 地 执行 但 却 不 是 同时 1 
的 。 可 以 这 样 来 构成 源 程序 ， 即 根据 计算 机 数据 数据 
的 特征 使 得 该 程序 的 一 部 分 只 由 某 些 计算 机 图 1-18 MPMD 结 构 
执行 而 不 被 其 他 计算 机 执行 。 对 于 主 从 结构 来 说 ， 该 程序 中 的 一 部 分 由 主 处 理 器 执行 ， 而 另 
一 部 分 则 由 其 余 的 从 处 理 器 执行 。 


1.4 机 群 计 算 
1.4.1 以 互联 计算 机 作为 计算 平台 


到 目前 为 止 ， 我 们 已 叙述 了 专门 设计 的 、 用 作 并 行 计算 平台 的 并 行 计算 机 ， 其 中 包括 多 
处 理 机 或 多 计算 机 。 多 年 来 ,许多 大 学 的 研究 项 目 致力 于 设计 这 种 多 处 理 机 系统 ， 通 常 采用 
几乎 完全 不 同 的 体系 结构 方式 和 不 同 的 软件 方案 ， 而 每 一 个 项 目 都 力求 能 达到 最 佳 性 能 。 在 
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大 型 系统 中 ， 直 接连 接 已 被 交换 器 和 多 级 交换 器 (多 级 互联 网 ) 所 替代 。 计 算 机 系统 的 制造 
商 们 已 提出 许多 此 类 设计 。 但 大 多 数 制造 商 面临 的 主要 问题 是 处 理 器 的 速度 不 断 地 提高 ， 每 
个 新 一 代 的 处 理 器 速度 更 快 且 在 内 部 能 同时 完成 更 多 的 操作 以 提高 性 能 。 计 算 机 购买 者 最 能 
注意 到 的 改进 是 个 人 计算 机 的 时 钟 速率 的 增加 。 基 本 的 时 钟 速率 仍 以 毫 不 减弱 的 势头 继续 增 
长 。 以 购买 一 台 奔 腾 (或 其 他 ) 计算 机 来 说 ， 来 年 买 的 相同 系统 将 比 当年 买 的 主 频 要 高 出 一 
倍 。 而 除了 时 钟 速率 外 ， 其 他 的 因素 也 使 系统 运行 得 更 快 。 例 如 ， 较 新 的 设计 可 能 在 处 理 器 
中 实现 了 更 多 的 内 部 并 行 以 及 采用 了 其 他 的 一 些 方法 使 操作 执行 得 更 快 。 他 们 还 使 用 具有 更 
高 带宽 的 存储 器 结构 。 对 于 “超级 计算 机 ”制造 商 而 言 ， 针 对 不 断 出 现 更 快 处 理 器 的 出 路 就 
是 去 使 用 巨 量 的 可 得 到 的 处 理 器 。 例 如 ， 假 设 一 台 多 处 理 机 用 2004 年 当今 最 先进 的 3GHz 的 处 
理 器 来 设计 ， 则 使 用 500 个 处 理 器 所 组 成 的 系统 其 性 能 仍 将 超过 若干 年 后 任何 一 台 单 处 理 器 系 
统 ， 当 然 其 成 本 是 非常 昂贵 的 。 

在 20 世 纪 80 年 代 后 期 和 90 年 代 早 期 ， 一些 大 学 尝试 了 另 一 种 更 为 经 济 有 效 的 方法 ， 即 使 
用 互联 的 工作 站 和 PC 机 来 构成 一 个 强大 的 计算 平台 。 从 不 同 的 观点 出 发 ， 许 多 研究 项 目 探索 
构成 计算 机 群 。 某 些 早期 的 研究 项 目 探索 使 用 实验 宝 中 的 工作 站 来 构成 工作 站 机 群 (cluster 
of workstations，COWs) 或 工作 站 网 络 (network of workstations，NOWs)， 如 Berkeley 的 
NOW 研 究 项 目 [Anderson，Culler，and Patterson，1995]。 另 一 些 探索 项 目 利 用 尚未 作 它 用 的 
现 有 工作 站 的 空余 时 间 ， 因 为 在 通常 的 时 间 中 ， 工 作 站 特别 是 那些 在 办 公 室 中 的 工作 站 不 会 
被 连续 使 用 ， 或 者 即使 使 用 也 不 需要 100% 的 使 用 处 理 器 时 间 。 

开始 时 ， 用 工作 站 网 络 进行 并 行 计 算 之 所 以 吸引 人 是 因为 已 有 的 工作 站 网 是 为 通用 计算 
服务 的 。 工 作 站 ,顾名思义 已 用 于 各 种 编程 和 从 事 与 计 算 机 相关 的 活动 。 此 后 ， 人 们 很 快意 
识 到 工作 站 网 络 可 为 用 户 提供 一 个 非常 吸引 人 的 从 事 高 性 能 计算 的 另 一 种 途径 ， 通 常 的 途径 
是 使 用 昂贵 的 超级 机 和 并 行 计 算 机 系统 。 使 用 工作 站 网 络 有 许多 显著 优点 胜 过 那些 专门 设计 
的 多 处 理 机 系统 。 关 键 的 优点 如 下 ; 

1) 可 用 较 低 的 成 本 使 用 有 很 高 性 能 的 工作 站 和 PC 机 。 

2) 系统 可 很 容易 地 引入 那些 可 买 到 的 最 新 的 处 理 器 ， 且 系统 可 通过 加 入 附加 的 计算 机 、 
磁盘 以 及 其 他 资源 增 量 式 地 加 以 扩展 。 

3) 可 使 用 已 有 的 应 用 软件 或 对 之 加 以 修改 。 

要 使 这 些 工作 站 能 集合 地 工作 必须 要 有 相应 的 软件 ， 很 巧合 的 是 在 大 约 同时 开发 了 消息 
传递 工具 使 上 述 概念 变 得 可 行 。 为 这 些 工作 站 提供 并 行程 序 设计 软件 工具 的 最 重要 的 消息 传 
递 研 究 项 目 是 始 于 20 世 纪 80 年 代 后 期 的 并 行 虚拟 机 PVM (Parallel Virtual Machine )。PVM 是 
工作 站 网 的 一 个 关键 支撑 技术 ， 它 使 得 在 工作 站 网 上 的 并 行程 序 设 计 得 以 成 功 地 实现 。 在 此 
之 后 又 定义 了 标准 的 消息 传递 库 ， 即 消息 传递 接口 MPI (Message-Passing Interface ) 。 

到 了 20 世 纪 90 年 代 ， 由 于 PC 机 已 是 相当 便宜 和 具有 强大 功能 ， 使 得 采用 众多 互联 的 PC 机 
作为 并 行 计 算 平台 的 概念 变 得 成 熟 。 定 位 作为 实验 室 计 算 机 的 工作 站 正在 部 分 地 被 常规 的 PC 
机 所 替代 ， 而 在 通用 实验 室 中 工作 站 和 PC 机 两 者 的 区 别 已 经 消失 。 “工作 站 网 ”已 让 位 于 简单 
的 计算 机 “机 群 ”(cluster)， 而 在 机 群 中 集合 地 使 用 众多 计算 机 求解 一 个 问题 的 计算 ， 称 为 
机 群 计算 (cluster computing)。9 

日 。 虽然 “机 群 计算 ”现存 是 一 个 被 接受 的 术语 ， 但 它 自 20 世 纪 90 年 代 早期 开始 就 用 在 工作 站 /PC 机 网 络 中 用 

来 集合 求解 问题 。 例 如 ， 在 1992 年 和 1993 年 于 佛罗里达 州立 大 学 的 超级 计算 研究 所 举行 过 称 为 机 群 计算 的 
专题 学 术 讨 论 会 。 
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1. 以 太 网 连接 
联网 计算 机 的 通信 方法 通常 使 用 的 是 以 太 网 类 型 ， 最 初 的 以 太 网 由 单线 组 成 ， 所 有 的 计 
算 机 都 附 接 到 该 线 上 ， 如 图 1-19 所 示 。 图 1-19 中 列 出 的 是 一 个 文件 服务 器 ， 它 保存 所 有 的 用 
户 文件 和 系统 的 实用 例 程 。 单 线 的 使 用 被 认为 是 以 以 太 网 
太 网 设计 的 低 成 本 和 布局 上 的 优点 。 现 在 单线 结构 
已 被 各 种 交换 器 和 集线器 所 替代 ， 但 以 太 网 的 协议 
仍 保持 不 变 。 交 换 器 顾名思义 ， 在 计算 机 间 提 供 直 不信 小 文 工作 


接 的 交换 式 连接 ， 从 而 允许 同时 有 多 对 连接 接 通 ， 图 1-19 最 初 以 太 网 型 单线 网 
如 图 1-20 所 示 ， 而 一 个 集线器 简单 地 说 就 是 与 所 有 
计算 机 相连 的 一 个 点 。 交 换 器 自动 地 将 包 路 由 到 它 连接 到 网 络 中 的 其 他 计算 机 和 交换 只 


们 的 目的 地 ， 并 允许 在 独立 的 计算 机 对 之 间 同 时 有 
多 对 连通 。 交 换 器 可 用 各 种 构造 互联 ， 并 在 网 络 中 
的 计算 机 间 路 由 消息 。 

在 以 太 网 类 型 的 连接 中 ， 源 和 目的 结 点 之 间 的 ”以 太 网 交换 器 任何 对 任何 的 同时 连接 
所 有 传递 是 以 包 形式 顺序 进行 的 (在 线 上 一 位 一 位 
地 进行 )。 包 中 含有 源 地 址 、 目 的 地 址 以 及 数据 。 
基本 的 以 太 网 格式 如 图 1-21 所 示 。 图 中 的 前 同步 码 
(preamble ) 部 分 是 作 同 步 用 的 。 可 载 的 最 大 数据 
大 小 为 1.5K 字 节 ， 如 果 欲 传送 的 数据 大 小 超过 该 上 -一 
限 值 ， 则 就 需要 将 其 分 成 多 个 包 ， 而 每 一 个 包 都 带 
有 自己 的 源 和 目的 地 址 。9 从 源 到 目的 地 ， 各 个 包 图 1-20 以 太 网 交换 器 
可 取 不 同 路 径 ， 在 大 型 网 络 或 因特网 上 通常 都 是 如 此 ， 但 在 到 达 目 的 地 后 必须 将 这 些 包 以 正 
确 的 顺序 重组 。 


帧 检验 序列 ， . 类 型 | 源 地 址 | 目的 地 址 | 前 同步 到 
一 一 
方向 


图 1-21 以 太 网 的 顿 格 式 


如 前 所 述 ， 最 初 以 太 网 协议 的 设计 是 使 用 单线 来 连接 众多 计算 机 的 。 由 于 每 个 工作 站 是 
完全 独立 运行 且 可 在 任何 时 间 发 送 消息 ， 因 此 当 一 台 计 算 机 需要 使 用 以 太 网 线路 时 ， 此 时 该 
以 太 网 线路 可 能 正 被 用 来 传送 由 另 一 台 计 算 机 发 出 的 包 。 如 果 能 检测 到 已 有 信息 在 网 上 传播 ， 
就 不 会 再 向 网 络 发 送 消息 包 。 一 台 接 到 以 太 网 线路 欲 发 送 消息 包 的 计算 机 只 有 在 没有 其 他 信 
息 沿 以 太 网 线路 传送 的 时 刻 ， 才 可 能 发 送 它 的 消息 包 。 但 是 在 几乎 同一 时 刻 由 不 同 的 工作 站 
发 出 多 个 包 ， 如 果 有 多 个 消息 包 同 时 提交 给 网 络 ， 则 来 自 它们 的 信息 将 被 破坏 。 在 源 结 点 处 
通过 比较 正 欲 发 送信 息 和 以 太 网 线路 上 的 实际 消息 就 可 检测 出 这 种 情况 。 如 果 两 者 不 一 样 ， 
则 就 按照 以 太 网 协议 (IEEE 标准 802.3) 将 自己 的 包 在 间隔 一 段 时 间 后 再 次 提交 到 网 线 上 。 

最 初 的 以 太 网 速度 为 10Mb/s， 后 被 改进 成 100Mb/s 和 1000Mb/s (后 者 称 为 千 兆 位 以 太 网 )。 互 
联 可 以 是 双 绞 线 ( 铜 )、 同 轴线 、 或 是 光纤 ， 后 者 可 用 于 更 高 速度 和 更 长 的 距离 。 应 该 特别 提醒 







的 是 ， 以 太 网 的 消息 传递 时 延 是 非常 大 的 ， 特 别 是 由 于 使 用 某 种 消息 传递 软件 引入 的 额外 开销 。 


© 增加 包 大 小 是 可 能 的 。Alteron Networks 有 -项 专利 技术 称 为 巨 帧 ， 可 使 包 大 小 从 1 500 字 节 增 加 到 9 000 字 节 。 
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2. 网 络 寻 址 

TCP/IP (传输 控制 协议 /网 际 协议 ) 是 一 个 标准 ， 由 它 构 成 了 联网 计算 机 进行 通信 和 传递 
数据 的 规则 。 在 因特网 上 ， 为 识别 目的 ， 每 个 “主机 ”都 给 有 一 个 地 址 。TCPJIP 定 义 了 一 个 
32 位 数 的 地 址 ， 它 被 分 成 四 个 8 位 数 (用 于 网 际 协议 版 本 4，IPv4, )。 在 某 些 约束 下 ， 每 个 数 
的 取 值 范围 为 0~ 255。 一 个 完整 地 址 的 标记 是 由 点 分 开 的 四 个 数 所 组 成 的 。 例 如 ， 可 以 给 定 
一 台 计 算 机 的 了 地 址 号 为 : 


129.49.82.1 


以 二 进 制 表 示 的 该 地 址 应 是 : 
10000001.00110001.01010010.00000001 
地 址 被 划分 成 字段 以 选择 一 个 网 络 、 一 个 可 能 的 子 网 、 以 及 子 网 或 网 络 中 的 计算 机 (“ 主 
机 ”)。 由 地 址 的 第 1 或 前 2、3、4 位 区 别 多 种 格式 。 图 1-22 中 示 出 了 IPv4 格 式 的 布局 ， 该 信息 
是 有 关 设 置 一 个 机 群 的 。 


31 24 23 
A 类 范围 : 1.0.0.0 - 127.255.255.255 
31 16 15 0 
1.0 网 络 子 网 络 及 主机 
B 类 范围 : 128.0.0.0 - 191.255.255.255 
31 8 7 0 
加 TF 


C 类 范围 : 192.0.0.0 - 223.255.255.255 


b= 


31 0 


DOT 


D 类 范围 : 224.0.0.0 - 239.255.255.255 


31 0 


E 类 范围 : 240.0.0.0 - 247.255.255.255 


0 
01111111|000000000000000000000000 


回 送 127.0.0.0 
图 1-22 IPv4 的 格式 


A 类 格式 的 首位 地 址 为 9， 并 使 用 后 7 位 来 识别 网 络 ， 其 余 的 24 位 用 来 识别 子 网 和 “主机 ” 
(计算 机 )。 在 一 个 网 络 中 ， 它 可 提供 多 达 16 777 216 〈22#) 台 主 机 ， 但 它 只 能 识别 128 个 网 络 。 
主机 可 在 各 种 子 网 的 配置 中 加 以 安排 。A 类 格式 主要 用 在 非常 大 的 网 中 。 
B 类 主要 用 在 中 型 网 中 ， 由 地 址 的 前 2 位 (10) 加 以 识别 ， 用 后 面 的 14 位 识别 网 络 。 余 下 
的 16 位 用 来 识别 子 网 和 主机 。 它 在 一 个 网 中 可 提供 65 536 (2#) 个 主机 ， 而 可 用 的 网 络 数 为 
16 384 (224) 个 。 同 样 ， 主 机 可 在 各 种 子 网 的 配置 中 加 以 安排 ， 但 一 个 简单 的 配置 可 为 256 个 
子 网 和 每 个 子 网 中 有 256 台 主机 。 即 子 网 /主机 部 分 的 前 8 位 用 来 识别 子 网 ， 而 后 8 位 则 用 来 识 
别 子 网 中 的 主机 。 
C 类 主要 用 在 小 型 网 中 ， 由 地 址 的 前 3 位 (110) 加 以 识别 。 网 络 用 后 面 的 21 位 加 以 识别 。 余 
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下 的 8 位 用 来 识别 主机 。 它 在 一 个 网 络 中 可 提供 256 (28) 个 主机 ， 而 可 用 的 网 络 数 为 2 097 152 
(221) 个 。 同 样 ， 主 机 可 在 各 种 子 网 的 配置 中 加 以 安排 ,但 一 个 简单 的 配置 是 不 含有 子 网 。 

DD 类 主要 用 来 同时 向 多 个 目的 地 广播 一 个 消息 ， 即 传输 将 被 多 台 计 算 机 获得 ( 称 为 多 播 )。 
回 送 (loopback) 格式 用 来 向 自身 发 回 一 个 消息 以 作 测 试用 。 某 些 地 址 是 被 保留 的 ， 如 在 图 1- 
22 中 所 示 的 那样 ， 而 在 A、B、C 类 中 的 某 些 网 络 地 址 是 预 留 供 私人 网 用 的 (从 10.0.0.0 到 
10.255.255.255，172.16.0.0 到 172.32.255.255， 以 及 192.168.0.0 到 192.168.255.255)。 私 人 网 地 
址 可 用 做 专用 机 群 ， 有 关 这 一 点 将 在 稍 后 讨论 。 

IPv4 中 的 32 位 地 址 可 识别 约 40 亿 台 主 机 (23? = 4 294 967 296， 减 去 那些 为 特定 主机 保留 
而 未 使 用 的 地 址 )。 因 特 网 已 有 了 巨大 的 发 展 ， 多 数 人 估计 在 2001 年 将 超过 1 亿 台 主机 
[Knuckles ，2001]， 而 且 很 快 就 需要 更 多 的 IP 地 址 。IP 地 址 不 但 用 于 如 在 计算 机 实验 室 中 的 那 
样 国定 连接 到 因特网 的 计算 机 ， 而 且 也 用 于 因特网 服务 提供 者 (Internet Service Provider)， 
供用 户 拨号 和 其 他 连接 。 已 经 开发 了 IPv6 (网 际 协议 版 本 6) 以 扩展 IPv4 的 寻 址 能 力 ，IPv6 使 
用 128 位 的 地 址 码 ， 它 被 分 成 8 个 16 位 段 。 因 而 它 可 提供 多 达 2'* 个 主机 地 址 (很 巨大 的 一 个 数 
字 ! )。IPv6 还 对 消息 传送 能 力作 了 许多 增强 。 所 设计 的 IPv6 网 络 软 件 也 适用 于 IPv4。 以 下 的 
论述 将 基于 IPv4 的 地 址 。 

在 设置 一 个 机 群 时 ，IP 的 寻 址 信息 至 关 重 要 ， 因 为 IP 寻 址 通常 用 于 机 群 中 计算 机 间 的 通 
信 ， 以 及 机 群 与 机 群 外 用 户 之 间 的 通信 。 网 络 地 址 由 因特网 赋 号 授权 局 (Internet Assigned 
Number Authority ) 分 配给 机 构 。 而 子 网 及 主机 的 地 址 指派 则 由 机 构 来 完成 ( 即 由 子 网 /主机 
的 系统 管理 员 来 完成 )。 在 通信 软件 中 ， 通 过 设置 掩 码 来 选择 网 络 、 子 网 以 及 主机 的 字段 。 掩 
码 是 一 个 32 位 数 ， 用 1 来 定义 地 址 的 网 络 / 子 网 部 分 。 例 如 ， 在 B 类 地 址 中 用 8-15 位 来 定义 子 网 
的 掩 码 ， 如 图 1-22 所 示 : 

255.255.255.0 
其 二 进 制 码 的 表示 为 : ， 
11111111.11111111.11111111.00000000 

由 它 区 分 开 主 机 地 址 与 网 络 / 子 网 的 地 址 。 应 注意 的 是 ， 子 网 和 主机 字段 的 分 割 不 必 一 定 要 
以 8 位 作为 分 界 ， 它 需 由 本 地 的 系统 管理 员 确 定 ， 但 网 络 地 址 (A、B、 或 C) 是 分 配给 机 构 的 。 

计算 机 通过 以 太 网 网 络 接口 卡 (NIC) 连接 到 以 太 网 电缆 。 在 图 1-21 中 所 示 的 以 太 网 格式 
的 源 和 目的 地 址 不 是 了 地 址 ; 它们 是 网 络 接口 卡 地 址 。 这 些 地 址 长 为 48 位 ， 称 为 MAC (媒体 
访问 控制 器 ，Media Access Controller) 地 址 。 每 个 网 络 接口 卡 有 一 个 预先 定义 的 和 独特 的 48 
位 MAC 地 址 ， 它 在 制造 芯片 或 网 卡 时 就 已 设置 好 (由 IEEE 注 册 局 控制 地 址 的 分 配 )。 虽 然 一 
台 计 算 机 的 IP 地 址 是 由 软件 选择 的 ， 但 每 个 NIC 的 MAC 地 址 却 是 固定 的 。 为 在 这 两 个 地 址 之 
间 建 立 通信 路 径 必需 进行 翻译 。 高 层 的 软件 使 用 IP 地 址 ， 而 低层 的 网 络 接 口 软件 则 使 用 MAC 
地 址 。 实 际 上 ，MAC 地 址 和 IP 地 址 两 者 都 被 包含 在 以 太 网 的 消息 包 中 ， 在 图 1-21 中 IP 地 址 被 
包含 在 消息 包 的 数据 部 分 中 。 

在 IP 寻 址 上 面 还 有 一 层 ， 该 层 将 IP 地 址 转换 成 名 称 以 方便 用 户 的 交互 。 例 如 ， 
sol.cs.wcu.edu 是 西 卡罗来纳 大 学 中 的 一 个 服务 器 ， 它 位 于 数学 和 计算 机 科学 系 ; 它 的 IP 
地 址 是 152 .30.5.10。 名 称 和 IP 地 址 间 的 关系 是 由 域名 服务 (Domain Naming Service ) 建立 


的 ， 它 是 一 个 分 布 式 名 称 数 据 库 。。 


© 在 UNIX 系 统 中 主机 名 和 人 Pp 地 址 亲 的 关系 被 保存 在 一 个 称 为 主机 的 文件 中 ， 借助 如 cat /etc/hosts 命 令 可 对 它 
进行 恰 查 。 还 有 一 张 存 有 name/IP 地 址 和 主机 以 太 网 MAC 地 址 间 关 系 的 查找 表 。 该 表 可 用 地 址 确定 协议 命 
令 arp -a 加 以 检查 。 
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1.4.2 机 群 的 配置 


可 用 多 种 方法 来 构成 一 个 机 群 。 

1. 现 有 联网 计算 机 

第 一 类 方法 中 的 一 个 是 使 用 实验 室 中 现 有 的 工作 站 来 构成 机 群 ， 如 图 1-23a 所 示 。 这 些 工 
作 站 为 进行 网 络 通信 已 分 配 有 也 地 址 。 通信 软 件 提供 了 通信 的 手段 。 确 实 ， 在 20 世 纪 90 年 代 
早期 ， 作 者 为 讲授 机 群 计算 课程 就 试用 了 第 一 种 方法 ， 即 利用 现 有 的 联网 计算 机 。 对 教育 音 
位 来 讲 使 用 现 有 计算 机 的 网 络 具有 很 强 的 吸引 力 ， 因 为 这 种 方法 不 需要 其 他 的 资源 ， 但 这 种 
方法 在 计算 机 的 使 用 方面 存在 较 大 问题 。 机 群 计算 意味 着 要 同时 使 用 多 人 台 计算 机 。 显 然 ， 借 
助 现代 的 操作 系统 可 以 安排 计算 机 在 后 台 从 事 机 群 计算 程序 ， 而 其 他 用 户 仍 可 在 计算 机 前 直 
接 工作 。 此 外 ， 那 时 使 用 的 消息 传递 软件 (PVM) 的 结构 也 比较 容易 做 到 这 一 点 。 但 在 实践 
中 发 生 的 情况 使 此 方法 无 法 工作 ， 因 为 当 机 群 计算 正在 进行 时 ， 在 计算 机 前 工作 的 用 户 可 使 
计算 机 停止 (他 们 可 简单 地 将 计算 机 关 掉 ! )。 反 过 来 ， 学 生 所 从 事 的 机 群 计算 活动 也 可 能 使 
计算 机 陷入 麻烦 。 此 外 ， 这 种 方法 也 需要 对 计算 机 有 远程 访问 的 能 力 ， 但 如 果 处 理 不 当 ， 就 
会 可 能 出 现 安全 问题 。 在 那 时 ， 实 现 远程 访问 (UNIX ) 的 通常 方法 是 使 用 “r” 命 令 
(rlogin，rsh)， 由 销 息 传递 软件 调用 它们 以 远程 地 启动 进程 。 由 于 这 些 命令 是 不 安全 的 ， 
因此 学 生 能 够 远程 访问 其 他 计算 机 ， 将 可 能 导致 洗劫。( 口 令 不 加 密 的 传送 )。 当 然 ， 近 来 通 
过 使 用 ssh 使 远程 访问 已 变 得 安全 。 
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b) 用 实验 室 计算 机 构成 专用 机 群 
图 1-23 构成 机 群 的 早期 方法 


2. 转向 专用 的 计算 机 机 群 

很 快 我 们 发 现 如 果 简 单 地 将 实验 室 中 因 升 级 而 淘汰 的 原 有 计算 机 来 构成 专用 机 群 会 显得 
非常 经 济 有 效 (免费 的 ! ), 而 且 少 了 许多 麻烦 。 每 次 实验 室 计算 机 升级 时 ， 机 群 也 跟着 升级 ， 
但 机 群 用 的 计算 机 型 号 正 是 实验 室 欲 将 其 替换 掉 的 去 年 的 计算 机 型 号 。 机 和 群 的 计算 机 不 需要 
显示 器 或 键盘 ， 它 们 之 间 使 用 在 实验 室 中 所 使 用 的 相同 通信 介质 进行 连接 。 简 单 地 将 计算 机 
移 到 一 个 专用 的 机 群 中 时 ， 不 需要 改变 IP 地 址 。 除 了 不 再 有 本 地 用 户 坐 在 其 控制 台 前 之 外 ， 
计算 机 仍 如 以 前 那样 归属 于 子 网 。 所 有 的 访问 都 是 远程 完成 的 。 用 户 在 机 群 组 外 登录 到 一 台 
计算 机 ， 并 与 自己 的 那 台 计算 机 一 起 进入 到 机 群 计算 机 形成 一 个 新 的 机 群 ， 图 1-23b 对 此 作 了 
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说 明 。 应 注意 的 是 ， 在 此 机 群 中 的 计算 机 类 型 将 是 最 初 为 计算 机 实验 室 所 选择 的 类 型 。 例 如 ， 
我 们 机 群 的 构成 包括 20 世 纪 90 年 代 早期 的 8 台 SUN IPC 计 算 机 ， 它 们 后 来 被 升级 成 通用 实验 室 
淘汰 下 来 的 8 台 SUN Ultra 计算 机 。 

3. Beowulf 机 群 

一 个 小 型 但 非常 有 影响 力 的 机 群 计 算 研 究 项 目 是 于 1993 年 在 NASA Goddard 空间 飞行 中 
心 启动 的 ， 该 项 目 致力 于 通过 使 用 很 易 得 到 的 低廉 部 件 来 构成 经 济 有 效 的 计算 机 机 群 。 他 们 
选用 标准 、 现 成 的 微 处 理 器 以 及 易 得 到 的 操作 系统 (Linux ) ， 并 使 用 低 价 以 太 网 进行 互联 。 
与 其 他 有 关 构 成 机 群 的 研究 项 目 在 设计 中 经 常 使 用 某 些 专用 的 部 件 及 软件 意图 获取 高 性 能 的 
策略 相反 ，NASA 的 研究 项 目 立足 于 只 使 用 广泛 可 用 的 、 低 价 的 部 件 ， 并 基于 价格 /性 能 作为 
部 件 的 选用 标准 。 该 项 目 被 命名 为 Beowulf 研 究 项 目 [Sterling，2002a and 2002b]。 该 名 称 已 被 
认为 是 一 种 标记 ， 以 代表 任何 使 用 商品 互联 网 和 易 获 得 软件 、 旨 在 构成 一 个 经 济 有 效 的 计算 
平台 的 低廉 的 计算 机 机 群 。 开 始 时 使 用 的 是 Intel 处 理 器 (486) 和 免费 的 Linux 操 作 系 统 ， 
Linux 到 目前 为 止 仍 是 采用 Intel 处 理 器 的 Beowulf 机 群 的 通用 的 操作 系统 。 当 然 ， 在 Beowulf 机 
群 中 也 可 使 用 其 他 的 类 型 的 处 理 器 。 

对 一 个 冠 名 为 Beowulf 的 机 群 的 主要 特征 是 它 采 用 已 广泛 流行 的 部 件 以 获得 最 好 的 价格 性 
能 比 。 术 语 商 品 计算 机 (commodity computer) 意 在 突出 这 样 一 个 事实 ， 即 个 人 计算 机 的 价 
格 现在 是 如 此 便宜 ， 因 而 可 以 较 短 的 间隔 周期 来 更 新 它 。 个 人 计算 机 的 巨大 市 场 使 得 它们 的 
制造 成 本 非常 低廉 。 而 且 这 一 情况 也 适用 于 处 理 器 相关 的 所 有 部 件 ， 如 存储 器 和 网 络 接口 。 
目前 的 商品 以 太 网 接口 卡 (NIC) 其 价格 最 为 低廉 。 用 这 样 的 互联 网 连接 商品 计算 机 就 可 构成 
一 个 商品 化 计算 机 的 机 群 。 


4. 超越 Beowulf 
显然 ， 如 果 具 有 经 济 意义 的 话 ， 人 们 将 使 用 具有 更 高 性 能 的 部 件 ， 而 真正 的 高 性 能 机 群 
将 使 用 具有 最 高 性 能 的 部 件 。 


(1) 互联 网 ”在 低 成 本 的 机 群 中 ，Beowulf 通 常 使 用 快速 以 太 网 ， 一 种 简单 的 升级 方法 是 
采用 干 兆 位 以 太 网 ， 在 夏 洛 特 北 卡罗来纳 大 学 就 采用 这 种 方法 。 但 是 ， 还 有 许多 其 他 的 更 专 
用 和 更 高 性 能 的 互联 网 ， 如 带宽 为 2.4Gbits/sec 的 Myrinet 互 联网 。 此 外 ， 还 可 使 用 其 他 的 互联 
网 ， 其 中 包括 cLan，SCI (Scalable Coherent Interface ) ，QsNet 以 及 Infiniband， 有 关 更 多 细节 
请 参见 [Sterling ，2002a] 。 

(2) 具有 多 个 互联 的 机 群 ”Beowulf 及 其 他 的 研究 项 目 所 开发 的 机 群 都 使 多 个 并 行 的 互联 
以 减少 通信 开销 。 机群 可 以 配置 多 个 以 太 网 卡 或 是 不 同类 型 的 网 卡 。 在 最 初 的 Beowulf 项 目 中 ， 
每 台 计 算 机 使 用 两 个 正规 的 以 太 网 互联 以 及 采用 了 一 种 “通道 绑 定 ”(“channel bonding”) 技 
术 。 通 道 绑 定 技术 将 若干 个 物理 接口 与 一 个 虚拟 通道 连接 在 一 起 。 已 有 可 用 的 软件 来 实现 这 
一 点 (例如 ， 参 见 http://cesdis.gsfc.nasa.gov/beowulf/software )。 就 Beowulf 而 言 ， 所 生成 的 结 
构 必 须 是 经 济 有 效 的 。 这 种 技术 确实 使 性 能 有 了 显著 的 改进 (更 详尽 的 细节 请 参见 [Sterling， 
2002])。 一 些 近期 的 机 群 使 用 较 慢 的 以 太 网 作 结 构 上 的 连接 ， 而 在 程序 执行 时 使 用 如 Merinet 
那样 的 快速 互联 进行 通信 。 

我 们 已 致力 于 使 用 多 条 以 太 网 线路 的 概念 来 配置 机 群 ， 如 图 1-24a、b 和 c 所 示 。 对 交换 器 的 
使 用 有 很 多 种 方法 。 图 1-24 中 所 示 的 方法 就 一 般 的 分 类 而 言 是 属于 重叠 互 通 网 络 [Hoganson， 
Wilkinson，and Carlisle，1997; Wilkinson，1990，1991，1992a，1992b]。 重 登 互 通 网 具有 提供 
互通 区 域 以 及 区 域 间 重 谷 的 特征 。 在 重 秋 互通 的 以 太 网 中 ， 它 是 通过 如 图 1-24a、b 和 和 ec 所 示 的 以 
太 网 段 来 实现 的 ， 但 也 有 若干 其 他 方法 可 实现 重 又 互通 ， 例 如 可 参见 [Wilkinson and Farmer， 
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1994]。 应 提 及 的 是 图 1-24 的 结构 能 显著 地 减少 冲突 ， 但 时 延 和 数据 传输 时 间 则 仍 与 原来 一 样 。 
并 行程 序 设计 机 群 





b) 使 用 分 离 的 以 太 网 接口 


rd Fa Fa Ha Fen Fe 


c) 使 用 以 太 网 交换 器 
图 1-24 重 又 互通 以 太 网 


(3) 对 称 多 处 理 机 (SMP) 机 群 ”小 型 的 共享 存储 器 多 处 理 机 的 互联 是 基于 总 线 的 ， 关 
于 这 一 点 已 在 1.3.1 节 中 叙述 过 ， 由 于 处 理 器 和 存储 器 模块 间 是 对 称 的 ， 故 被 称 为 对 称 式 (不 
是 双人 二 名 全。 
是 双 处 理 器 系统 。 因 此 ， 用 “对 称 多 处 理 机 ”( SMP) 系统 来 构成 图 1-25 那 样 的 机 群 是 合 | 34 | 
在 这 种 结构 的 机 群 上 可 以 进行 某 些 很 有 趣 的 编程 ， 在 SMP 间 可 使 用 消息 传递 方法 ， SM 
内 部 则 可 使 用 线程 或 其 他 共享 存储 器 方法 。 然 而 通常 为 方便 起 见 ， 统 一 地 使 用 消息 传递 。 当 
消息 要 在 一 个 SMP 计 算 机 内 的 处 理 器 之 间 传 送 时 ， 在 实现 时 可 使 用 共享 存储 器 的 单元 来 保留 
消息 ， 这 就 大 大 加 快 了 通信 。 


SMP 计 算 机 0 SMP 计 算 机 n-1 





图 1-25 共享 存储 器 计算 机 机 群 


(4) Web 机 群 由 于 因特网 和 World Wide Web 的 问世 ， 使 在 不 同 地 点 甚至 不 同 国家 的 计算 
机 互联 起 来 。Web 的 出 现 已 经 导致 这 样 的 可 能 性 ， 即 使 用 连接 到 Web 上 的 各 地 的 计算 机 进行 并 
行程 序 设 计 。 已 经 有 许多 研究 项 目 正 在 从 事 使 用 计算 机 “网 ”( web) 来 构成 一 个 并 行 计算 的 ”[35] 
台 。 这 种 想法 原来 称 为 元 计算 (metacomputing )， 而 现在 则 称 为 网 格 计算 (grid computing )。 





26  。 惠 一 记分 基 太 技术 


从 事 这 种 大 型 机 群 计 算 类 型 的 研究 项 目 有 Globus，Legion 和 WebFlow。 有 关 这 三 个 系统 的 更 
多 细节 可 在 [Baker and Fox，1999] 中 找到 。 


1.4.3 打造 “Beowulf 风 格 ” 的 专用 机 群 


“Beowulf 风 格 ” 意 味 着 使 用 商品 部 件 。 这 便 是 可 从 著名 的 供应 商 那里 购买 到 的 普通 PC 机 。 
尽管 供应 商 们 的 目标 是 朝向 使 用 多 个 双 / 四 处 理 器 的 服务 器 以 获得 很 高 的 性 能 ， 但 这 些 供应 商 
现在 已 信奉 机 群 计算 并 提供 预先 包装 好 的 机 群 计 算 系 统 。 无 论 如 何 ， 由 于 引入 了 如 Oscar 那样 
的 软件 包 使 设置 过 程 大 为 简化 ,Oscar 软件 包 使 装载 操作 系统 和 其 他 过 程 的 工作 可 自动 地 完成 。 
我 们 将 在 本 小 节 的 后 面 简 述 Oscar 软 件 包 。 

1. 硬件 配置 

一 个 通常 的 硬件 配置 是 使 一 台 计 算 机 作为 主 结 点 ， 而 机 群 中 的 其 他 计算 机 在 私有 网 络 中 
作为 计算 结 点 。 主 结 点 传统 地 被 认为 是 前 端 机 (frontend)， 其 作用 如 同一 台 文 件 服务 器 ， 但 
有 很 大 的 主 存储 器 和 外 存储 器 容量 。 计 算 结 点 虽然 可 以 不 用 磁盘 ， 但 一 般 为 方便 起 见 都 带 有 
磁盘 驱动 。 计 算 结 点 和 主 结 点 间 的 连接 可 用 快速 以 太 网 或 千 兆 位 以 太 网 (或 使 用 更 专用 的 互 
联网 ， 如 Myrinet) ， 如 图 1-26 所 示 。 主 结 点 需要 第 二 个 以 太 网 接口 以 与 外 界 相连 ， 并 需要 一 个 
全 局 可 访 的 IP 地址 。 计 算 结 点 只 有 私有 的 IP 地 址 ， 即 这 些 计算 机 只 能 在 机 群 网 络 中 通信 ， 在 
机 群 外 不 能 对 它们 进行 直接 的 访问 。 





图 1-26 具有 主 结 点 的 专用 机 群 


该 模型 可 用 若干 方法 进行 增强 。 可 使 用 另 一 个 计算 机 作为 管理 结 点 。 系 统管 理 员 用 该 结 
点 来 监控 机 群 和 进行 测试 。 计 算 结 点 的 唯一 用 途 是 完成 计算 ， 因 此 它们 不 需要 键盘 或 显示 器 。 
但 车 能 通过 每 台 计 算 机 通常 的 控制 台 输 入 对 它们 进行 访问 ， 则 显然 比较 方便 。 因 此 ， 这 些 结 
点 的 串 行 连接 可 以 通过 一 个 集中 器 交换 器 接 回 到 主 结 点 或 是 管理 结 点 〈 如 果 系 统 中 有 的 话 )。 
可 用 各 种 方法 加 以 连接 。 图 1-27 中 示 出 了 一 种 方案 ， 它 有 一 个 键盘 和 一 个 显示 器 ， 可 在 主 结 
点 和 管理 结 点 间 切 换 。 





图 1-27 具有 主 结 点 、 管 理 结 点 和 串 行 连接 的 专用 机 群 
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2. 软件 配置 - 

通常 机 群 中 的 每 一 台 计 算 机 都 有 一 个 操作 系统 的 拷贝 (传统 的 是 Linux ， 但 也 可 构成 
Windows 的 机 群 )。 通常 主 结 点 还 为 机 群 保存 所 有 的 应 用 程序 文件 ， 并 能 使 用 网 络 文件 系统 将 
其 配置 成 一 个 文件 服务 器 ， 它 人 允许 计算 结 点 远程 地 阅 看 和 直接 访问 已 存储 的 文件 。 最 常用 的 
网 络 文件 系统 是 NSF。 应 注意 的 是 ， 机 群 的 计算 结 点 是 与 外 部 网 分 开 的 ， 因 而 所 有 的 用 户 访 
问 是 借助 另 一 个 以 太 网 接口 和 IP 地 址 通过 主 结 点 进行 的 。 在 主 结 点 上 安装 的 还 有 消息 传递 软 
件 (MPI 和 PYM， 将 在 第 2 章 中 讨论 )、 机 群 管理 工具 以 及 并 行 应 用 程序 。 消 息 传递 软件 介 于 
操作 系统 和 用 户 之 间 ， 因 此 是 中 间 件 (middleware ) 。 

一 且 所 有 软件 都 安装 好 以 后 ,用户 可 在 主 结 点 上 登录 ， 并 使 用 消息 传递 软件 登记 到 各 计 
算 结 点 ， 这 也 将 在 第 2 章 中 叙述 。 挑 战 性 的 任务 是 在 于 首先 要 设置 机 群 ， 这 需要 有 详尽 的 操作 
系统 和 网 络 的 知识 〈 即 Linux 命 令 及 如 何 使 用 它们 )。 有 许多 书籍 和 Web 网 站 (甚至 专题 讨论 
会 ) 专门 论 及 如 何 完成 这 一 任务 。 很 幸运 的 是 (在 前 面 已 提 及 )， 由 于 机 群 设置 软件 包 的 引入 
大 大 地 简化 了 为 机 群 设置 软件 的 工作 ， 其 中 包括 Oscar (开源 机 群 应 用 资源 ，Open Source 
Cluster Application Resources) 软件 包 ， 它 是 菜单 驱动 式 的 且 是 免费 使 用 的 。 在 启动 Oscar 之 
前 ， 先 要 将 操作 系统 (RedHat Linux ) 安装 到 主 结 点 上 。 此 后 ,在 若干 菜单 式 驱动 步 后 ， 
Oscar 将 安装 好 所 需 的 软件 ， 并 完成 对 机 群 的 配置 。 简 单 地 讲 ， 在 主 结 点 上 设置 NSF 及 网 络 协 
议 ， 而 在 数据 库 中 则 定义 机 群 。 由 用 户 选 择 IP 地 址 对 私有 机 群 网 络 加 以 定义 ， 并 收集 计算 结 
点 的 以 太 网 接口 的 MAC 地 址 ， 这 只 需 每 个 计算 结 点 向 主 结 点 发 一 个 Boot Protocol ( 自 举 协议 ， 
BOOTP/DHCP ) 请 求 就 可 得 到 ， 将 为 计算 结 点 返回 的 是 耳 地 址 ， 此 外 还 返回 指明 要 自 举 哪 一 
部 分 核心 (操作 系统 的 中 心 部 分 ) 的 “ 自 举 ”文件 名 。 然 后 将 核心 下 载 并 进行 自 举 ， 并 创建 
计算 结 点 的 文件 系统 。 计 算 结 点 上 的 操作 系统 是 使 用 Linux 安 装 实用 程序 LUI 通 过 网 络 完成 的 。 
最 后 ， 配 置 机 群 并 安装 和 配置 中 间 件 。 在 运行 测试 程序 后 ， 机 群 就 绪 。 此 外 为 批 处 理 队 列 、 
”调度 及 作业 监控 还 提供 了 工作 负载 的 管理 工具 。 对 机 群 来 讲 很 希望 有 这 些 工 具 。 有 关 Oscar 的 
更 多 细节 可 在 网 站 http://www.csm.ornl.gov/oscar 上 找到 。 


1.5 小 结 


本 章 介 绍 了 以 下 概念 : 

。 并行 计算 机 及 其 编程 

。 加 速 比 及 其 他 系数 

* 由 单 处 理 器 系统 扩展 成 一 个 共享 存储 器 多 处 理 机 系统 

* 消息 传递 多 处 理 机 (多 计算 机 ) 

“适用 于 消息 传递 多 计算 机 的 互联 网 

* 联网 工作 站 作为 并 行程 序 设计 平台 

， 机群 计 算 
推荐 读物 , 

有 关 多 处 理 机 系统 内 部 设计 的 更 多 信息 ， 可 参见 计算 机 系统 结构 的 教科 书 ， 如 [Culler and 
Singh，1999]、[ Hennessy and Patterson，2003] 以 及 [Wilkinson，1996]。 有 关 互 联网 技术 已 
发 表 了 大 量 的 著作 。 关 于 互联 网 的 更 详细 的 信息 可 在 由 [Duato,，Yalmanchili and Ni，1997] 所 
编写 的 很 有 价值 的 教科 书 中 找到 ， 该 书 是 一 本 互联 网 的 专著 。 早 期 涉及 以 太 网 的 论文 可 参见 
[Metcalfe and Boggs, 1976]。 
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[Anderson, Culler, and Patterson，1995] 创 造 了 一 个 实例 ， 即 将 整个 工作 站 网 络 用 作为 一 个 多 计算 
机 系统 。 基 于 Web 的 有 关 工 作 站 机 群 研究 项 目的 材料 ， 可 在 包括 http://cesdis.gsfc.nasa.gov 
jbeowulf 的 网 站 中 找到 。 在 联网 工作 站 上 使 用 共享 存储 器 的 例子 可 在 [Amza et al.，1996] 中 看 到 。 

意识 到 在 工作 站 机 机 群 中 使 用 商品 化 接口 将 使 性 能 受 限 这 一 事实 ， 已 经 导致 一 些 研究 人 
员 去 设计 具有 更 高 性 能 的 网 络 接口 卡 (NIC)。 关 于 这 一 领域 的 著作 包括 [Blumrich et al.， 
1995]、[Boden et al., 1995]、[Gillett and Kaufmann, 1997]LA 及 [Minnich, Burns and Hady ， 
1995]。[Martin et al.，1997] 对 机 群体 系 结构 中 的 通信 时 延 、 开 销 和 带宽 的 影响 进行 了 详细 的 
研究 。 他 们 得 出 的 一 点 结论 是 改善 通信 系统 的 通信 性 能 比 单纯 的 加 倍 机 器 性 能 有 更 好 的 效果 。 

由 [Buyya，1999a and 1999b] 主 编 的 两 卷 集 为 机 群 提 供 了 信息 财富 。[Williams，2001] 写 
了 一 本 极 好 的 侧重 网 络 化 的 计算 机 系统 体系 结构 的 教科 书 。 有 关 构 建 机 群 的 细节 可 在 [Sterling， 


2002a and 2002b] 中 找到 。 
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一 个 多 处 理 机 系统 由 100 台 处 理 器 组 成 ， 每 台 处 理 器 的 峰值 执行 速度 为 2 Gfiops。 当 10% 
代码 为 顺序 执行 ， 而 90 多 代码 可 并 行 化 时 ， 访 系统 以 Gflops 表 示 的 性 能 为 多 少 ? 

试 讨论 一 个 系统 的 效率 (E) 是 否 能 大 于 100%? 

对 于 给 定 的 搜索 的 某 些 部 分 必须 顺序 地 进行 的 求解 问题 ， 试 将 阿 姆 达尔 定律 方程 与 1.2.1 
小 节 中 的 超 线性 加 速 比 分 析 结 合 起 来 ， 以 推导 出 一 个 加 速 比 的 方程 。 

在 你 的 系统 上 识别 主机 名 、IP 地 址 和 MAC 地 址 。 确 定 用 于 网 络 的 IPv4 和 IPv6 的 格式 。 

对 以 下 的 每 个 IPv4 地 址 ， 识 别 它们 的 类 : 

(a) 152.66.2.3 

(b) 1.2.3.4 

(c) 192.192.192.192 

(d) 247.250.0.255 

其 中 只 给 定 类 A 自 0 开始 ， 类 B 从 模式 10 开 始 ， 类 C 从 模式 110 开 始 ， 以 及 类 D 从 模式 1110 
开始 〈 即 不 要 参考 图 1-22 ) 。 


-6， 假 定 被 分 配 的 (IPv4) 网 络 地 址 是 153.78.0.0， 它 需要 6 个 子 网 ， 每 个 有 250 个 主机 。 识 别 


该 网 络 的 地 址 类 ， 并 为 子 网 和 主机 划分 地 址 。 两 者 地 址 必须 留 出 服务 器 结 点 。 
欲 打 造 一 个 由 32 台 计算 机 所 构成 的 机 群 。 服 务 器 结 点 有 两 个 以 太 网 连接 ， 一 个 接 到 因 特 
网 ， 另 一 个 接 到 机 群 。 因 特 网 的 IP 地 址 是 216.123.0.0。 用 C 类 格式 为 此 机 群 设计 IP 地 址 
的 分 配 。 . 
一 个 公司 正 提议 使 用 512 位 的 IPv8 格 式 。 你 认为 这 一 提议 合理 吗 ? 请 给 出 理由 。 
物理 上 构造 由 消息 传递 多 计算 机 和 共享 存储 器 多 处 理 机 两 者 混合 的 系统 是 可 能 的 。 请 所 
写 一 份 论证 报告 ,说 明 如 何 加 以 实现 以 及 该 混合 系统 相对 于 纯 消 息 传递 系统 和 纯 共 享 存 
储 器 系统 的 优越 性 体现 在 什么 地 方 ? 

(研究 课题 项 目 ) 提出 一 份 有 关 真 正 增 量 式 可 扩展 机 群 计 算 机 系统 的 前 景 报告 ， 该 系 
统 可 接纳 越 来 越 快 的 处 理 器 而 不 必 丢 弃 老 的 处 理 器 。 其 概念 是 ， 系 统 开始 是 仅 有 很 少 
量 的 现代 处 理 器 ， 此 后 每 年 增加 少量 更 新 的 处 理 器 。 这 样 每 一 年 后 ， 可 用 的 处 理 器 自 
然 就 会 更 好 。 在 适当 的 时 候 ， 将 最 老 的 处 理 器 丢弃 ， 但 仍 保留 增加 的 处 理 器 ， 因 此 ， 
系统 就 永远 不 会 陈旧 ， 且 留 下 的 较 老 的 处 理 器 仍 可 提供 有 用 的 服务 。 关 键 是 如 何 设计 
该 系统 的 体系 结构 以 接受 更 快 的 处 理 器 和 更 快 的 互联 部 件 。 另 一 个 问题 是 ， 何 时 丢弃 
那些 较 老 的 处 理 器 。 对 丢弃 处 理 器 和 互联 部 件 的 最 佳 时 间 进 行 分 析 。 
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在 本 章 中 我 们 将 概述 消息 传递 计算 的 基本 概念 。 我 们 将 介绍 消息 传递 程序 的 基本 结构 以 
及 如 何 对 进程 之 间 的 消息 传递 加 以 说 明 。 我 们 先是 一 般 地 加 以 讨论 ， 然 后 我 们 概述 一 个 特定 
系统 ，MPI (message-passing interface ， 消 息 传递 接口 ) © 。 在 本 章 最 后 ,我们 将 从 理论 和 实 
践 两 方面 讨论 如 何 评估 消息 传递 并 行程 序 。 


2.1 消息 传递 程序 设计 基础 
2.1.1 编程 的 选择 


对 消息 传递 多 计算 机 编程 可 用 以 下 方法 进行 : 

1) 设计 一 种 专用 的 并 行程 序 设计 语言 。 

2) 对 现 有 的 一 种 顺序 高 级 语言 的 语法 /保留 字 加 以 扩展 来 处 理 消息 传递 。 

3) 使 用 现 有 的 一 种 顺序 高 级 语言 ， 并 为 它 配备 一 个 能 进行 消息 传递 的 外 部 过 程 库 。 

上 述 三 种 方法 均 有 不 少 例子 。 也 许 有 关 消 息 传递 的 专用 的 并 行程 序 设计 语言 的 唯一 一 个 
常用 例子 是 occam 语 言 ， 它 是 为 transputer 的 消息 传递 处 理 机 而 专门 设计 的 [Inmos，1984]。 并 
行程 序 设 计 的 语言 扩展 的 例子 有 好 多 个 ， 尽 管 大 都 数 例子 如 高 性 能 Fortran (HPF) 更 适用 于 
共享 存储 器 系统 (参见 第 8 章 )， 但 Fortran M [Foster，1995] 是 个 例外 ， 它 使 用 显 式 的 消息 传 
递 工 具 。 | 
也 可 用 专门 的 并 行 化 编译 器 将 以 顺序 语言 (如 Fortran) 编写 的 程序 转换 成 可 执行 的 并 行 
代码 。 多 年 以 前 就 已 提出 这 种 方法 ， 但 它 通 常 对 消息 传递 是 不 适用 的 ， 因 为 传统 的 顺序 程序 
设计 语言 没有 消息 传递 这 个 概念 ， 但 在 第 8 章 论 及 共享 存储 器 程序 设计 时 我 们 仍 会 对 并 行 化 编 
译 器 作 简 单 的 介绍 。 

下 面 我 们 主要 集中 讨论 第 三 种 选择 ， 即 使 用 通常 的 高 级 语言 程序 设计 ， 例 如 C， 但 对 它 加 
以 扩展 ,使 它 能 进行 消息 传递 库 的 调用 , 以 完成 进程 对 进程 的 直接 消息 传递 。 在 这 种 方法 中 ， 
必须 显 式 地 说 明 要 执行 哪些 进程 ， 何 时 在 并 发 进程 间 传 送 消 息 ， 以 及 传递 什么 消息 。 在 这 种 
类 型 的 消息 传递 系统 中 编程 必须 使 用 两 个 基本 方法 : 

1) 创建 独立 进程 使 它们 能 在 不 同 的 计算 机 上 执行 的 方法 。 

2) 发 送 和 接收 消息 的 方法 。 


2.1.2 进程 的 创建 


在 往 下 讨论 之 前 ， 让 我 们 复习 一 下 进程 的 概念 。 在 第 1 章 中 ， 为 了 构造 并 行程 序 ， 引 入 了 
术语 进程 。 在 某 些 实例 中 ， 特 别 是 在 不 同 处 理 机 器 上 测试 程序 时 ， 可 能 会 有 多 个 进程 映射 到 
单个 处 理 器 上 。 由 于 该 处 理 器 将 为 这 些 进程 分 时 共享 ， 因 此 通常 不 可 能 得 到 最 快 的 执行 速度 ， 
但 它 却 允 许 在 多 处 理 机 系统 执行 程序 之 前 对 程序 进行 验证 。 有 一 种 情况 是 希望 构造 一 个 程序 
使 在 单 处 理 机 上 有 多 个 进程 运行 ， 这 主要 是 为 了 隐藏 网 络 的 时 延 (将 在 2.3.1 节 中 讨论 )。 无 论 


日 为 本 书 准 备 的 基于 Web 的 材料 中 包括 了 对 PVM 和 MPI 两 系统 的 支持 。 
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如 何 ， 我 们 将 假设 只 有 一 个 进程 映射 到 一 个 处 理 器 ， 且 使 用 术语 进程 而 不 是 处 理 器 ， 除 非 要 
强调 处 理 器 的 操作 时 才 会 使 用 后 一 术语 。 首 先 必须 创建 进程 并 使 它们 开始 执行 。 
创建 进程 有 两 种 方法 : 

1) 静态 进程 创建 。 

2) 动态 进程 创建 。 

在 静态 进程 创建 〈static process creation) 时 ， 所 有 进程 在 执行 前 必须 加 以 说 明 ， 系 统 将 
执行 固定 数目 的 进程 。 程 序 员 通 常 需 在 进程 或 程序 执行 之 前 用 命令 行动 作 显 式 标识 它们 。 在 
动态 进程 创建 (dynamic process creation ) 方法 中 ， 可 在 其 他 进程 的 执行 期 间 创 建 进程 并 启动 
执行 它们 。 通 常用 进程 创建 构造 或 库 / 系 统 的 调用 来 创建 进程 。 当 然 也 可 撤销 进程 。 进 程 创建 
和 撤销 可 以 有 条 件 地 进行 。 此 外 在 执行 过 程 中 进程 数 也 可 以 发 生变 化 。 很 显然 ， 动 态 的 进程 
创建 比 起 静态 的 进程 创建 来 是 功能 更 强大 的 技术 ， 但 在 创建 进程 时 它 会 导致 显著 的 开销 。 进 
程 创 建 常 遭 致 某 种 误解 ， 因 为 实际 上 不 论 在 什么 情况 下 ， 进 程 代 码 必 须 在 任何 进程 执行 之 前 
完成 编写 和 编译 。 | 

在 大 多 数 应 用 程序 中 ， 进 程 既 不 会 全 相同 也 不 会 全 不 同 ; 通常 总 是 有 一 个 称 为 “ 主 进程 ” 
(master process ) 的 控制 进程 ， 而 其 余 的 进 
程 则 为 “从 ”进程 或 “工作 者 ”， 这 些 进程 
在 形式 上 相同 ， 差 别 仅 在 于 它们 的 进程 标识 
符 (ID) 不 同 。 进 程 的 ID 可 用 来 修改 进程 的 
动作 或 为 消息 计算 不 同 的 目的 地 。 进 程 由 程 
序 员 所 编写 的 程序 所 定义 。 

最 通用 的 程序 设计 模型 是 多 程序 多 数据 可 执行 
(multiple-program, multiple-data，MPMD) 模 代码 
型 ， 在 这 种 模型 中 ， 需 为 不 同 的 处 理 器 编写 
完全 独立 和 不 同 的 程序 ， 如 图 2-1 所 示 。 然 而 
如 前 所 述 ， 通常 只 需 编写 两 个 不 同 的 程序 ， 

即 一 个 主 程序 和 一 个 从 程序 就 足够 了 。 由 一 

个 处 理 器 执行 主 程序 ， 而 由 多 处 理 机 执行 相 图 2-1 多 程序 多 数据 (MPMD) 模型 
同 的 从 程序 。 通 常 即使 从 程序 是 相同 的 ， 进 
程 的 ID 可 用 来 定制 执行 一 一 例如 指明 所 生成 
消息 的 目的 地 。 

特别 地 对 于 静态 进程 的 创建 ， 使 用 所 谓 
的 单程 序 多 数据 (SPMD ，single-program， 
multiple-data) 模型 就 更 为 方便 。 在 SPMD 模 
型 中 ,不 同 的 进程 将 被 融合 到 一 个 程序 中 。 和 和合 人 
在 该 程序 中 将 由 控制 语句 为 每 个 进程 选择 程 执行 RB| | 一- 2 
序 的 不 同 部 分 。 在 用 控制 语句 分 离 每 个 进程 
所 要 完成 动作 的 源 程序 构成 之 后 ， 就 将 此 源 
程序 编译 成 每 个 处 理 器 可 执行 的 代码 ， 如 图 
2-2 所 示 。 每 个 处 理 器 将 装载 该 代码 的 拷贝 到 
它 的 本 地 存储 器 中 以 便 执行 并 且 所 有 处 理 器 处 理 器 0 处 理 器 p-1 
可 以 同时 开始 执行 这 些 代码 。 如 果 处 理 器 的 图 2-2 单程 序 多 数据 模型 (SPMD) 


编译 成 适合 
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类 型 不 同 ， 那 么 就 需 为 每 种 不 同类 型 的 处 理 器 将 源 代码 编译 成 可 执行 代码 ， 而 每 个 处 理 器 必 
须 装 载 附 合 自己 类 型 的 代码 以 便 执行 。 稍 后 (在 2.2.2 节 中 ) 我 们 将 更 详细 地 叙述 SPMD 的 程 
序 设计 ， 因 为 它 是 最 常用 的 消息 传递 系统 之 一 一 一 MPI 中 采用 的 主要 方法 。 
对 于 动态 进程 的 创建 ， 可 以 编写 两 个 不 进程! 
同 的 程序 ， 即 一 个 主 程序 和 一 个 从 程序 ， 对 | 
它们 分 别 编译 并 准备 执行 。 用 库 调 用 实现 动 
态 进 程 创建 的 例子 可 为 如 下 形式 : 
spawn(name of process); 
它 将 立刻 启动 另 一 个 进程 9 ， 此 后 调用 进程 ”时 间 
和 被 调用 进程 两 者 就 一 起 向 前 执行 ， 如 图 2-3 
所 示 。 正 被 “派生 ”的 进程 实际 上 是 一 个 事 
先 编译 好 的 、 且 可 执行 的 程序 。 


2.1.3 消息 传递 例 程 


1. 基本 的 发 送 和 接收 例 程 
发 送 和 接收 消息 传递 库 的 调用 常用 以 下 形式 : 


send(parameter _ list) 






启动 进程 2 执行 。 法 程 2 


图 2-3 派生 一 个 进程 


recv(patameter list) 

其 中 send( ) 出 现在 源 进程 中 ， 由 它 发 送 消 息 ， 而 recv( ) 则 出 现在 目的 进程 中 以 收集 已 被 发 
出 的 消息 。 括 号 中 的 实 参 (实际 参数 ) 依赖 于 软件 ， 在 某 些 情况 下 可 能 较为 复杂 。 在 send( ) 
中 最 简单 的 参数 将 是 目的 ID 和 消息 ， 而 在 recv( ) 中 则 为 源 ID 和 收 到 消息 的 地 点 名 。 用 C 语 言 
时 ， 在 源 进程 中 我 们 可 用 以 下 的 调用 : 

send(&x, destination id); 

在 目的 进程 中 则 有 以 下 的 调用 : 

recv(&y, source id); 

这 样 就 可 将 源 进程 中 的 数据 x 发 送 到 目的 进程 的 y 处 ， 
如 图 2-4 所 示 。 具 体 的 参数 安排 次 序 依赖 于 系统 。 本 
书 采用 的 顺序 是 ， 在 数据 之 后 指明 进程 识别 ， 并 使 
用 & 后 跟 一 个 单个 数据 元 素 说 明 对 指针 的 调用 。 在 本 图 2-4 使 用 库 调用 send() 和 recv() 在 
例 中 ， 在 x 中 必须 预先 装载 要 发 送 的 数据 ， 且 x 和 y 必 进程 问 传送 一 个 消息 

须 有 相同 类 型 和 大 小 。 通 常 我 们 要 发 送 的 是 比 单个 数据 元 素 更 为 复杂 的 消息 ， 因 而 需要 功能 
更 强大 的 消息 格式 。 有 关 实 际 的 消息 传递 调用 参数 的 确切 细节 和 变化 ， 将 在 2.2 节 中 介绍 ,但 
在 此 之 前 我 们 要 详尽 阐述 有 关 它 的 基本 机 制 。 为 提高 代码 效率 和 增强 灵活 性 ， 为 发 送 /接收 例 
程 提 供 了 各 种 机 制 。 

(1) 同步 消息 传递 ”术语 同步 (synchronous) 用 于 在 消息 传递 已 经 结束 时 确实 已 返回 的 
例 程 。 一 个 同步 发 送 例 程 在 返回 之 前 将 处 于 等 待 状态 ， 直 至 它 所 发 送 的 完整 消息 已 被 接收 进 
程 接收 。 一 个 同步 接收 例 程 在 返回 之 前 将 处 于 等 待 状态 ， 直 至 它 所 期 待 的 消息 已 经 到 达 和 被 
存储 。 由 一 个 同步 发 送 操作 和 一 个 与 之 相 匹 配 的 同步 接收 操作 所 组 成 的 一 对 进程 同步 时 ， 在 
未 完成 将 消息 从 源 进 程 传送 给 目的 进程 之 前 ， 它 们 之 中 的 任 一 个 都 不 能 继续 执行 。 因 此 ， 同 


”Courier 字 样 用 来 突出 代码 ， 该 代码 可 以 是 伪 代 码 或 是 使 用 特殊 语言 或 系统 的 代码 。 
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步 例 程 本 质 上 要 完成 两 个 动作 : 传送 数据 和 同步 进程 。 常 用 术语 会 会 (rendezvous) 来 描述 通 
过 同步 发 送 /接收 操作 实现 两 个 进程 会 合 和 同步 。 

同步 发 送 和 接收 操作 不 需要 消息 缓冲 存储 器 。 它 们 瞳 示 需要 有 某 些 形式 的 信号 量 ， 如 在 
三 路 协议 中 ， 由 源 进程 首先 向 目的 进程 发 送 一 个 “请 求 发 送 ”消息 ， 当 目的 进程 准备 接受 该 
消息 时 ， 就 向 源 进 程 返回 一 个 确认 消息 。 一 旦 收 到 该 确认 ， 源 进程 就 发 送 实 际 消 息 。 使 用 三 
路 协议 的 同步 消息 传递 如 图 2-5 所 示 。 在 图 2-5a 中 ， 进 程 1 在 进程 2 到 达 相 应 的 recv ( ) 之 前 到 
达 它 的 send ( ) 。 在 某 种 状态 下 ， 进 程 1 必 须 挂 起 直至 进程 2 到 达 它 的 recv( ) 。 此 时 进程 2 必 
须 以 某 种 “信号 量 ”形式 唤醒 进程 1， 此 后 进程 1 和 进程 2 双方 就 可 参与 消息 传送 。 应 注意 在 图 
2-5$a 中 ， 消 息 必 须 在 源 进程 中 加 以 保留 ， 直 至 可 被 发 送 为 止 。 在 图 2-5p) 中 ， 进 程 2 在 进程 1 到 
达 其 send( ) 之 前 到 达 recv()。 现 在 轮 到 进程 2 必须 挂 起 ， 直 至 双方 都 能 参与 消息 传递 为 止 。 
至 于 挂 起 和 唤醒 进程 的 具体 机 制 则 与 系统 相关 。 

进程 1 进程 2 


1 
t 
1 
! 


挂 起 进程 ， 两 个 Senal) ; 


时 间 | 。 进 积 均 继续 





时 间 | 两 个 进程 均 继续 





b) recv( ) 出 现在 send( ) 之 前 
图 2-5 使 用 三 路 协议 的 同步 send( ) 和 recv( ) 库 调用 


(2) 阻塞 和 非 阻塞 消息 传递 ”术语 阻塞 (blocking) 原先 也 用 来 描述 在 传送 完成 之 前 不 允 
许 进程 继续 执行 的 例 程 。 例 程 “ 被 阻塞 ”而 不 能 继续 向 下 执行 。 就 此 而 言 ， 术 语 同 步 
(synchronous) 和 阻塞 是 同 义 的 。 术 语 非 阻塞 (nonblocking) 用 来 描述 不 管 消 息 是 否 已 收 到 ， 
例 程 马上 返回 的 工作 方式 。 但 是 术语 阻塞 和 非 阻塞 在 如 MPI 那 样 的 系统 中 已 被 重新 定义 。 稍 
后 我 们 将 考察 有 关 精 确 的 MPI 定 义 ， 但 现在 让 我 们 简单 叙述 在 消息 传递 结束 之 前 ， 消 息 传递 
例 程 如 何 能 实现 返回 。 一 般 而 言 ， 在 源 和 目的 之 间 需 要 有 消息 缓冲 区 (message buffer) 来 保 
存 消息 ， 如 图 2-6 所 示 。 这 里 的 消息 缓冲 区 是 用 来 保存 在 recv ( ) 接 收 之 前 欲 发 送 的 消息 ， 对 
接收 例 程 来 讲 ， 如 果 需 要 该 消息 ， 该 消息 就 必须 要 被 接收 。 如 果 recv( ) 先 于 send( ) 到达， 
则 消息 缓冲 区 将 是 空 的 ， 而 recv ( ) 就 需要 等 待 消息 。 但 对 发 送 例 程 来 讲 ， 一 旦 本 地 操作 已 经 
结束 旦 消息 已 安全 上 路 ， 则 该 进程 就 可 继续 执行 后 继 工 作 。 采 用 这 种 工作 方式 的 发 送 例 程 可 
减少 整个 的 执行 时 间 。 实 际 上 ， 由 于 缓冲 区 的 大 小 是 有 限 的 ， 因 而 完全 可 能 在 某 一 时 间 点 ， 
因为 已 用 完了 所 有 可 用 的 缓冲 区 空间 发 送 例 程 将 受阻 。 在 某 一 时 间 点 上 可 能 必须 了 解 所 发 送 
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的 消息 是 否 确实 已 被 接收 ， 当 然 这 就 需要 额外 的 消息 传递 。 


时 间 ”| 继续 进程 


读 消 息 缓冲 区 





图 2-6 消息 缓 串 区 的 使 用 


我 们 将 采用 与 MPI 相 一 致 的 术语 的 定义 一 一 称 使 用 消息 缓冲 区 并 在 它们 的 本 地 操作 完成 后 
就 返回 的 例 程 是 阻塞 的 ， 或 更 精确 地 说 是 本 地 阻塞 的 ， 虽然 此 时 消息 传递 可 能 还 未 完成 。 而 
称 那 些 立 即 返 回 的 例 程 为 非 阻塞 的 。 在 MPI 的 非 阻塞 例 程 中 ,假设 用 于 传送 的 数据 存储 器 在 
数据 存储 器 用 于 传送 之 前 不 能 为 后 继 的 语句 所 修改 ， 而 这 一 点 要 由 程序 员 设法 保证 。 术 语 同 
步 用 来 描述 直到 发 送 例 程 和 接收 例 程 都 已 到 达 且 消息 已 从 源 向 目的 传送 时 ， 发 送 例 程 和 接收 
例 程 才 可 返回 的 这 样 一 种 情况 。 在 本 书 的 大 部 分 代码 中 ， 只 需 使 用 (本 地 ) 阻塞 和 同步 。 

2. 消息 选择 

到 目前 为 止 ， 我 们 已 叙述 了 如 何 从 一 个 特定 的 源 进程 向 一 个 特定 的 目的 进程 发 送 消息 ， 
这 里 的 目的 进程 的 ID 在 发 送 例 程 中 是 作为 一 个 参数 给 定 的， 而 源 进程 的 ID 则 是 在 接收 例 程 中 
作为 一 个 参数 给 定 的。 目的 进程 中 的 recv( ) 将 只 接收 recv ( ) 中 以 参数 指明 的 源 进程 所 发 来 
的 消息 ， 对 其 他 消息 将 不 予 接收 。 可 以 在 源 ID 处 使 用 一 个 特殊 符号 或 数字 作为 源 ID 的 通配符 ， 
以 允许 目的 进程 接收 来 自任 何 源 进程 的 消息 。 例 如 可 用 ~1 作 为 源 ID 的 通配符 。 

为 了 提供 更 大 的 灵活 性 ， 可 用 附 于 消息 的 消息 标记 (message tag) 对 发 送 来 的 消息 加 以 
选择 。 消 息 标 记 msgtag 是 一 个 典型 的 由 用 户 选 定 的 正 整 数 (包括 零 ) ， 用 它 对 发 送 的 不 同类 
型 的 消息 加 以 区 分 。 然 后 可 制作 特定 的 接收 例 程 来 接受 具有 特定 消息 标记 的 那些 消息 ， 而 忽 
略 其 他 消息 。 因 此 消息 标记 将 成 为 send( ) 和 recv ( ) 中 的 一 个 附加 参数 ， 通 常 该 参数 紧 跟 在 
源 /目的 标识 之 后 。 例 如 ， 要 从 源 进 程 1 向 目的 进程 2 发 送 消息 标记 为 5 的 消息 x， 并 将 其 赋值 给 
y， 则 在 源 进 程 中 我 们 可 用 

send(&x, 2, 5); 

而 在 目的 进程 中 可 用 

recv(&y, 1, 5); 
消息 标记 是 在 消息 内 自 带 的 。 如 果 不 需要 特殊 类 型 的 匹配 ， 就 可 用 通配符 代替 消息 标记 ， 这 
样 zecv() 就 可 与 任何 send( ) 相 匹配 。 . 

消息 标记 的 使 用 非常 普及 。 但 它 需 要 程序 员 跟 踪 在 程序 中 和 任何 由 别人 编写 的 内 藏 程序 
部 分 或 是 所 调用 的 库 例 程 中 所 使 用 的 消息 标记 号 。 为 区 分 是 在 内 藏 程序 或 库 例 程 中 或 是 在 用 
户 进程 中 所 发 送 的 消息 ， 需 要 功能 更 强 的 消息 选择 机 制 。 我 们 将 在 稍 后 阐述 这 种 机 制 。 

3. 广播 ， 集 中 和 分 散 ( Broadcast ,Gather and Scatter ) 

通常 还 有 许多 其 他 的 消息 传递 和 有 关 的 例 程 ， 它 们 将 提供 我 们 所 期 望 的 一 些 特性 。 对 拥有 
消息 源 的 进程 通常 要 求 它 能 将 相同 消息 发 送 给 多 个 目的 进程 。 术 语 广播 (broadcast) 是 指向 所 
有 与 求解 问题 有 关 的 进程 发 送 相同 的 消息 。 术 语 多 播 (multicast) 用 于 描述 将 相同 消息 发 送 给 已 
定义 的 进程 组 中 的 每 个 进程 。 但 是 本 书 将 不 对 两 者 加 以 区 别 ， 而 是 简单 地 统称 它们 为 广播 。 
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图 2-7 对 广播 的 含义 做 了 说 明 。 必 须 对 参加 广播 的 所 有 进程 加 以 标识 ， 典 型 的 做 法 是 首先 
生成 一 个 已 命名 的 进程 组 ， 然 后 在 广播 例 程 中 将 其 作为 一 个 参数 。 在 图 2-7 中 ， 在 广播 例 程 的 
参数 中 将 进程 0 标识 为 根 进程 (root process)。 实 际 上 组 中 任何 进程 都 可 以 被 指定 为 根 进程 。 
在 本 例 中 ， 根 进程 在 buf 中 保存 要 广播 的 数据 。 图 2-7 指 明 每 个 进程 均 将 执行 相同 的 bcast ( ) 
例 程 ， 对 SPMD 模 型 来 讲 这 种 安排 非常 方便 ， 因 为 该 模型 中 的 每 个 进程 具有 相同 的 程序 。 图 2- 
7 还 指明 了 根 进程 本 身 也 接收 数据 (这 是 一 种 用 在 MPI 的 安排 )， 但 是 否 要 这 样 做 ， 则 依赖 于 
具体 的 消息 传递 系统 。 对 于 MPMD 模 型 ， 另 一 种 安排 是 由 源 进 程 执行 广播 例 程 ， 而 目的 进程 
只 执行 常规 的 消息 传递 接收 例 程 。 在 这 种 情况 下 ， 根 进程 就 不 会 接收 该 数据 ， 这 种 接收 实际 
上 是 不 必要 的 ， 因 为 根 进程 已 经 有 了 该 数据 。 

进程 0 进程 1 进程 p-1 


1 
bcast (); 
1 





I 
图 2-7 广播 操作 


如 前 所 述 ， 仅 在 所 有 进程 均 已 执行 了 它们 的 广播 例 程 后 ， 广 播 的 动作 才 会 出 现 ， 因 而 广 
播 操作 具有 同步 进程 的 作用 。 广 播 的 具体 实现 将 依赖 于 软件 和 底层 的 体系 结构 。 在 本 章 的 后 
面 将 阐述 这 种 实现 。 应 该 认识 到 ， 对 在 程序 中 广泛 使 用 的 广播 进行 有 效 的 实现 是 非常 重要 的 。 

术语 分 散 〈scatter) 被 用 于 描述 根 进程 中 数据 数组 中 的 每 个 元 素 被 分 别 发 送 给 各 个 进程 。 
数组 中 第 ; 企 单元 的 内 容 将 被 发 送 到 第 ;个 进程 。 与 广播 将 相同 数据 发 送 给 一 组 进程 不 同 ， 分 散 
将 分 配 不 同 的 数据 元 素 给 进程 。 广 播 和 分 散 是 两 个 常用 的 程序 启动 需求 以 发 送 数据 给 从 进程 。 
图 2-8 对 分 散 作 了 说 明 。 如 同 广播 一 样 ， 需 要 标识 一 个 进程 组 和 根 进程 。 在 本 例 中 ， 根 进程 也 
将 接收 一 个 数据 元 素 。 图 2-8 中 指明 每 个 进程 将 执行 相同 的 scatter ( ) 例 程 ， 同 样 对 SPMD 模 
型 来 讲 是 很 方便 的 。 

进程 0 进程 1 进程 p-1 





1 
scatter(); scatter{); 


图 2-8 分 散 操作 


术语 集中 (8gather) 是 指 一 个 进程 从 一 组 进程 中 的 每 一 个 进程 处 收集 一 个 值 。 集 中 通常 使 
用 在 组 中 进程 均 已 完成 某 种 计算 后 的 场合 。 集 中 实质 上 是 分 散 的 逆 操作 。 根 进程 接收 来 自 第 ; 
个 进程 的 数据 ， 并 将 它 放 到 用 来 接收 数据 的 数组 中 的 第 ;个 单元 处 。 图 2-9 对 集中 作 了 说 明 。 该 
例 中 的 进程 0 为 集中 的 根 进 程 。 同 样 ， 该 例 中 的 根 进程 也 参加 集中 操作 。 
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进程 0 进程 1 进程 p-1 


1 1 
gather(); gather (); 
1 上 





图 2-9 集中 操作 

有 了 时 集中 操作 可 与 一 个 指定 的 算术 或 逻辑 操作 组 合 在 一 起 。 例 如 ， 可 将 各 个 值 进行 集中 ， 
然后 再 由 根 进程 将 它们 相 加 ， 如 图 2-10 所 示 。 根 进程 也 可 完成 其 他 的 算术 /逻辑 操作 。 所 有 这 
些 操作 有 时 称 为 归 约 〈reduce) 操作 。 大 多 数 消息 传递 系统 支持 这 些 操 作 和 其 他 相关 操作 。 而 
归 约 操 所 实现 的 具体 方法 完全 依赖 具体 实现 方案 。 在 根 中 进行 集中 式 操作 不 是 唯一 的 解决 方 
法 。 可 以 将 部 分 操作 分 布 在 其 他 进程 中 完成 。 不 论 是 什么 样 的 实现 ， 其 基本 思想 是 要 使 公共 
集合 操作 的 实现 尽 可 能 高 效 。 

进程 0 进程 1 进程 p-1 


1 
reduce (); reduce(); 
t 


1 
1 
1 
1 1 


图 2-10 归 约 操作 (加 ) 





2.2 使 用 计算 机 机 群 
2.2.1 软件 工具 


现在 让 我 们 针对 计算 机 机 群 (机 群 计算 ) 叙述 基本 的 消息 传递 概念 。 已 经 有 几 种 机 群 计 
算 〈 旱 期 被 称 为 工作 站 网 络 ) 的 并 行程 序 设 计 软 件 包 。 也 许 第 一 个 被 广泛 接受 的 、 将 工作 站 
网 络 作 为 多 计算 机 平台 的 并 行程 序 设计 软件 是 PYVM (并 行 虚拟 机 )， 它 是 由 美国 Oak Ridge 国 
家 实验 室 在 20 世 纪 80 年 代 后 期 开发 并 在 20 世 纪 90 年 代 被 广泛 使 用 。PVM 为 同 构 或 异 构 计 算 机 
间 的 消息 传递 提供 了 一 个 软件 环境 ， 它 有 一 个 库 例 程 集 ， 用 户 可 在 C 或 FORTRAN 程 序 中 调用 
它们 。PVM 已 被 广泛 使 用 ， 部 分 原因 是 它 是 免费 的 且 很 容易 从 网 站 上 下 载 ， 下 载 网 址 为 http: 
Hwww.netlib.org/pvm3。 现 在 也 可 使 用 Windows 实 现 。 除 了 PVM 外 ， 也 有 由 IBM 等 厂商 为 特殊 
系统 所 开发 的 专利 消息 传递 库 。 但 正 是 PVM 在 20 世 纪 90 年 代 初 期 使 得 人 们 能 实际 地 使 用 工作 
站 网 络 进行 并 行程 序 设计 。 
2.2.2 MPI 


为 促进 更 广泛 地 使 用 和 可 移植 性 ， 学 术 界 和 产业 界 的 合作 伙伴 组 决定 联合 研发 一 种 他 们 
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希望 成 为 “标准 ”的 消息 传递 系统 。 他 们 称 其 为 MPI ( Message-Passing Interface ， 消 息 传递 
接口 )。MPI 为 消息 传递 和 相关 操作 提供 库 例 程 。MPI 的 基本 特征 是 ， 它 定义 的 是 一 个 “标准 ” 
而 不 是 具体 实现 。 这 犹如 程序 设计 语言 的 定义 ， 而 不 管 该 语言 的 编译 器 是 如 何 实现 的 。MPI 
有 大 量 的 例 程 《超过 120 个 ， 这 个 数量 还 在 增长 )， 当 然 我 们 讨论 的 仅 是 它们 的 一 个 子 集 。 开 
发 MPI 的 重要 因素 是 期 望 消息 传递 可 移植 旦 易于 使 用 。MPI 中 也 做 了 某 些 改变 以 改正 早期 如 
PVM 那 样 消息 传递 系统 中 的 一 些 技术 上 的 缺陷 。MPI 第 一 个 版 本 “版 本 1.0” 是 在 经 过 两 年 的 
会 议和 讨论 于 1994 年 5 月 最 后 确定 的 。 版 本 1 有 意识 地 删 去 了 某 些 高 级 的 或 有 争议 的 特性 ， 而 
在 以 后 的 版 本 中 加 入 了 这 些 特 性 。 版 本 1.2 是 版 本 1.0 的 增强 版 。 在 1997 年 又 推出 了 版 本 2.0 
(MPI-2)， 增 加 了 动态 进程 创建 、 单 边 操作 和 并 行 IO。 

实际 上 版 本 1 中 所 含有 的 大 量 函 数 是 应 用 程序 员 为 了 能 编写 高 效 的 代码 所 期 望 的 特征 。 但 


是 ， 只 需 使 用 可 用 函数 中 的 一 个 很 小 子 集 就 可 编写 程序 。[Gropp，Luskeand Skjellum，1999a] ， 


提 及 只 需 使 用 120 多 种 函数 中 的 6 个 函数 就 可 成 功 地 编写 程序 ， 我 们 要 讨论 的 内 容 将 多 于 6 个 
“基本 ”函数 。C 和 Fortran 语 言 均 可 调用 国 数 ， 我 们 只 讨论 C 的 版 本 。 所 有 的 MPI 例 程 以 前 绥 
MPI_ 开 始 ， 且 下 划 线 后 的 第 一 个 字母 必须 是 大 写 的 。 通 常 ， 例 程 返 回 的 信息 包括 成 功 调用 和 
失败 调用 。 这 些 信息 可 以 在 [Snir et al.,1998] 中 找到 ， 在 此 就 不 新 述 了 。 

已 经 有 了 好 几 种 MPI 标 准 的 免费 实现 ， 其 中 包括 美国 Argonne 国 家 实验 室 和 密西西比 
(Mississippi) 州立 大 学 的 MPICH， 俄 率 俄 超级 计算 中 心 (Ohio Supercomputing Center) 的 LAM 
( 现 由 Notre Dame 大 学 维护 )。 此 外 还 有 HP、IBM、SGI、SUN 以 及 许多 其 他 供应 商 的 实现 。 对 
Windows 机 群 的 实现 也 已 出 现 。 在 网 址 http:www.osc.edumpi 和 http:/www.erc.msstate.edu/misc/mpi 
/implementations. html 上 可 找到 有 关 MPI 实 现 和 其 出 处 的 列表 。 选 择 一 个 实现 的 关键 因素 是 持 
续 维 护 ， 因 为 少数 早期 的 实现 现在 已 完全 不 再 维护 。 判 断 是 否 维护 的 一 个 好 的 标志 是 看 该 实 
现 是 否 包含 MPI 的 最 近 版 本 的 特征 (目前 为 MPI-2)。 可 用 的 实现 特征 可 在 网 址 
http://www.erc.msstate.edu/misc/mpi/implementations.html 上 找到 (在 写本 书 时 共 列 出 24 个 实现 )。 
大 多 数 实现 ， 如 果 不 是 全 部 ， 并 没有 包括 MPI-2 的 每 个 特性 。 例 如 ， 在 写本 书 时 MPICH 完 全 不 
支持 MPI 的 单 边 通 信 。MPI-2 的 扩展 集合 操作 仅 在 两 个 实现 中 得 到 了 支持 (日 立 和 NEC 公 司 的 商 
业 实 现 )。 这 种 不 完全 的 支持 在 编写 当前 的 程序 时 可 能 会 出 现 问题 ， 特 别 是 非常 有 用 的 单 边 通信 
这 一 特征 。 

1. 进程 创建 和 执行 

如 同一 般 的 并 行程 序 设 计 ， 要 将 并 行 计算 分 解 成 若干 并 发 进程 。 在 MPI 标 准 中 ， 有 意 不 对 
创建 和 启动 MPI 进 程 加 以 定义 ， 它 们 将 依赖 于 实现 。 在 MPI 版 本 1 中 只 支持 静态 的 进程 创建 。 
这 就 是 说 ， 所 有 进程 在 执行 前 必须 加 以 定义 ， 且 它们 必须 一 起 启动 。MPI 版 本 2 中 作为 先进 特 
征 引 入 了 动态 进程 创建 ， 并 设 有 派生 例 程 MPI_Comm_spawn( ) 。 即 使 如 此 用 户 仍 可 能 不 用 
它 ， 因 为 动态 进程 的 创建 会 带 来 开销 。 

使 用 SPMD 计 算 模型 可 只 编写 一 个 程序 但 由 多 处 理 器 来 执行 。 启 动 不 同 程序 的 方法 由 具体 
实现 确定 。 通 常 启 动 可 执行 的 MPI 程 序 是 通过 命令 行 来 实现 的 。 例 如 ， 相 同 的 可 执行 程序 可 
同时 在 四 个 处 理 器 上 被 启动 通过 : 

mpirun progl-np 4 
或 是 

progl-np 4 
这 两 个 命令 没有 说 明 prog1 的 这 些 拷 贝 将 在 何 处 执行 。 再 强调 一 次 ， 在 MPI 标 准 中 并 不 定义 
如 何 将 进程 映射 到 处 理 器 上 。 指 定 的 上 映射 也 许可 用 命令 行 来 完成 或 是 使 用 一 个 文件 来 完成 ， 
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该 文件 中 含有 可 执行 程序 的 名 称 以 及 指定 的 用 来 运行 每 个 可 执行 程序 的 处 理 器 。MPI 支 持 拓 
扑 的 定义 《网 格 等 )， 因 此 它 具 有 自动 映射 的 六 能 。 

在 调用 任何 MPI 函 数 前 ， 必 须 用 MPI_Init ( ) 例 程 将 代码 初始 化 ， 而 在 所 有 MPI 哨 数 调用 
后 ， 代 码 必须 以 MPI_Finalize( ) 例 程 结 束 。 命 令 行 的 参数 将 传送 给 MPI_Init( ) 以 允许 
MPI 进 行 设置 将 要 发 生 的 动作 ， 即 

main (int argc, char *argv[]) 


{ 
MPI_Init(&argc, &argv); /* initialize MPI */ 


MPI_Finalize(); /* terminate MPI */ 
} 


(如 同 在 顺序 C 程 序 中 ，&azrgc 为 参数 计数 ， 提 供 参数 个 数 ， 而 &argvy 为 参数 向 量 ， 它 是 指向 
字符 串 数组 的 指针 )。 

开始 时 ， 所 有 进程 进入 一 个 称 为 MPI_COMM_WORLD 的 “宇宙 ”， 且 为 每 个 进程 给 定 一 个 独 
特 的 序号 ， 如 果 有 P 个 进程 ， 则 序号 从 0 到 p-1。 在 MPI 术 语 中 ，MPI_COMM_WORLD 是 一 个 通信 
子 (communicator) ， 由 它 定义 通信 操作 的 作用 域 (scope)， 进 程 使 序号 与 通信 子 相 对 应 。 为 
了 建立 进程 组 可 使 用 其 他 的 通信 子 。 对 于 单个 程序 ， 使 用 默认 的 MPI_COMM_WORLD 通 信子 就 
足够 了 。 然 而 ， 通 信子 的 概念 允许 程序 ， 特 别 是 库 ， 构 造成 对 于 每 个 消息 都 有 独立 的 作用 域 。 

2. 使 用 SPMD 计 算 模型 

当 每 个 进程 实际 执行 相同 代码 时 ，SPMD 将 是 一 个 理想 的 模型 。 但 一 般 而 言 ， 所 有 应 用 
中 的 一 个 或 多 个 进程 常 需要 执行 不 同 代码 。 为 在 单个 程序 中 方便 地 实现 这 一 点 ， 就 需要 在 
代码 中 播 和 一些 语句 来 选择 每 个 处 理 器 执行 哪 一 部 分 代码 。 因 而 ，SPMD 模 型 不 排斥 主 - 从 
方法 ,而 只 是 必须 将 主 代码 和 从 代码 放 在 同一 程序 中 。 下 面 的 MPI 代 码 段 说 明 如 何 可 做 到 
这 一 点 : 

main (int argc, char *argv[]) 


{ 
MPI_Init(&argc, &argv); 


MPI_Corm_rank (MPI_COMM WORLD, &myrank);: /* find process rank */ 
if (myrank == 0) 

master () : 
else 

slave(); 


MPI_Finalize(); 
} 


其 中 的 master( ) 和 slave( ) 是 由 主 进程 和 从 进程 分 别 执行 的 过 程 。 该 方法 也 可 用 于 多 于 两 
个 代码 序列 的 情况 。 如 果 每 个 进程 要 执行 完全 不 同 的 代码 ， 那 么 SPMD 模 型 在 存储 器 需求 方面 
将 是 低 效 的 ， 但 幸运 的 是 不 大 会 有 这 种 需求 。SPMD 模 型 的 一 个 优点 是 可 将 它 的 命令 行 参数 传 
递 给 每 个 进程 。 

给 定 一 个 SPMD 模 型 ， 任 何 全 局 变量 声明 将 在 每 个 进程 内 被 复制 。 不 被 复制 的 那些 变量 需 
要 局 部 地 加 以 声明 ， 也 就 是 说 ， 在 仅 由 该 进程 执行 的 代码 内 部 声明 。 例 如 : 
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MPI_Corm_rank (MPI_COMM_WORLD，&myrank) ;/* find process rank */ 


if (myrank == 0) { /* process 0 actions/local variables */ 
int x, y; 

} else if (myrank == 1) { /* process 1 actions/local variables */ 
int x, y; 


} 


其 中 ,进程 0 中 的 x 和 y 与 进程 1 中 的 x 和 y 是 不 同 的 局 部 变量 。 但 是 这 种 声明 在 C 语 言 中 是 不 欢 
迎 的 ， 因 为 C 语 言 中 的 一 个 变量 的 作用 域 是 从 它 的 声明 开始 到 程序 或 函数 的 结束 ， 而 不 是 声明 
到 当前 块 的 结束 ， 要 实现 后 者 应 在 块 内 声明 这 些 变量 。 在 大 多 数 情况 下 ， 应 在 程序 的 顶部 声 
明 所 有 的 变量 ， 然 后 为 每 个 进程 复制 一 份 ， 实 质 上 它们 就 成 为 每 个 进程 的 局 部 变量 。 

3. 消息 传递 例 程 

消息 传递 通信 和 是 错误 操作 的 源头 。MPI 的 一 个 目的 是 为 用 户 提 供 一 个 安全 的 通信 环境 。 图 
2-11 表 示 了 一 个 不 安全 通信 的 例子 。 在 图 2-11 中 ， 进 程 0 欲 向 进程 1 发 送 一 个 消息 ， 但 如 图 2-11 
中 所 示 ， 在 库 例 程 间 也 有 一 个 消息 传递 。 尽 管 每 对 send/recv 将 源 和 目的 进行 了 匹配 ， 但 不 
正确 的 消息 传递 仍 会 发 生 。 通 配 符 的 使 用 更 增加 了 出 现 错误 操作 或 死 锁 的 可 能 。 假 定 在 一 个 
进程 中 ， 一 个 非 阻 塞 接收 在 消息 标记 和 源 字段 中 都 使 用 了 通配符 。 此 时 若 有 另 一 对 进程 调用 
库 例 程 要 求 进行 消息 传递 。 那 么 ,在 此 库 例 程 中 的 第 一 次 发 送 可 能 与 使 用 通配符 的 非 阻塞 接 
收 相 匹配 ， 引 发 一 个 错误 动作 。 


进 


1ib() 





a) 期 望 的 行为 


进程 0 进程 ! 


lib() 





b) 可 能 的 行为 
图 2-11 带 有 库 的 不 安全 消息 传递 
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MPI 为 所 有 点 对 点 和 集合 的 MPI 消 息 传递 通信 使 用 了 通信 子 。 一 个 通信 子 是 一 个 定义 了 一 
组 只 人 允许 组 内 进程 相互 通信 的 进程 的 通信 域 (communication domain ) 。 用 这 种 方法 ， 就 可 使 
库 的 通信 域 与 用 户 程序 分 晤 开 。 在 通信 子 中 ， 每 个 进程 有 一 个 序号 ， 它 是 从 0 到 P-1 的 一 个 整 
数 ， 其 中 p 是 进程 数 。 实 际 中 有 两 类 通信 子 可 以 使 用 ， 一 类 是 组 内 通信 的 内 通信 子 
(intracommunicator ) ， 另 一 类 是 组 间 通 信 的 外 通信 子 (intercommunicator)。 组 用 来 定义 参与 
通信 的 进程 集合 。 组 内 每 个 进程 有 一 个 唯一 的 序号 (从 0 到 m-1 的 一 个 整数 ， 其 中 m 是 组 中 进 
程 数 )， 一 个 进程 可 以 同时 是 多 个 组 的 成 员 。 对 于 简单 的 程序 只 使 用 内 通信 子 ， 因 此 就 不 需要 
组 的 附加 概念 。 

MPI 中 有 一 个 默认 的 内 通信 子 MPI_COMM_WORLD ， 它 作为 应 用 程序 中 所 有 进程 的 第 一 个 
通信 子 存在 。 在 简单 的 应 用 中 ， 不 需要 引入 新 的 通信 子 。MPI_COMM_WORLD 可 在 所 有 点 对 点 
和 集合 操作 中 使 用 。 新 的 通信 子 要 在 已 有 的 通信 子 上 创建 。MPI 中 有 一 组 例 程 ， 专 门 用 来 在 
已 有 的 通信 子 上 生成 新 的 通信 子 (以 及 从 已 有 的 组 中 创建 新 的 组 )， 请 参见 附录 A。 

(1) 点 对 点 通信 消息 传递 是 由 常见 的 发 送 和 接收 调用 来 完成 的 。 需 使 用 消息 标记 ， 可 使 用 
通配符 MPI_ANY_TAG 代 赫 消 息 标记 ， 也 可 用 通配符 MPI_ANY_SOURCE 在 接收 例 程 代替 源 ID。 

消息 的 数据 类 型 在 发 送 /接收 参数 中 加 以 定义 。 数 据 类 型 可 从 标准 MPI 数 据 类 型 表 中 选择 
(MPI_INT，MPI_FLOAT，MPI_CHAR 等 ) 或 由 用 户 创建 。 用 户 定义 的 数据 类 型 是 从 现 有 的 
数据 类 型 中 派生 出 来 的 。 用 这 种 方法 ， 用户 可 创建 一 个 数据 结构 以 表示 有 具有 任何 复杂 性 的 消 
息 。 例如， 可 以 创建 一 个 由 两 个 整数 和 一 个 浮 点 数组 成 的 数据 结构 ， 这 样 就 可 在 一 个 消息 内 
就 将 它们 发 送出 去 。 除 了 取消 较 早 的 PYM 消 息 传递 系统 中 对 打包 / 解 包 例 程 的 需要 之 外 ， 已 经 
声明 的 数据 类 型 还 具有 数据 类 型 可 重用 的 优点 。 另 外 ， 它 不 需要 显 式 的 发 送 和 接收 缓冲 区 ， 
这 对 减少 大 型 消息 所 需 的 存储 容量 需求 特别 有 用 ; 消息 不 需要 从 源 单元 拷贝 到 一 个 显 式 的 发 
送 缓冲 区 中 ， 拷 贝 到 显 式 的 发 送 缓冲 区 意味 着 需要 两 倍 的 存储 空间 以 及 时 间 开 销 。( 如 果 需 要 
的 话 ，MPI 设 有 提供 显 式 缓冲 区 的 例 程 。) 

(2) 完成 ”有 若干 种 关于 接收 和 发 送 的 版 本 。 可 使 用 局 部 完成 (locally complete ) 或 全 局 
完成 《globally complete ) 来 描述 这 种 版 本 的 变化 。 我 们 说 一 个 例 程 已 完成 了 操作 中 所 有 它 的 
部 分 则 该 例 程 是 局 部 完成 的 。 如 果 该 操作 涉及 到 的 所 有 例 程 都 已 完成 了 该 操作 中 它们 自己 的 
部 分 且 操 作 已 全 部 进行 则 称 例 程 是 全 局 完成 的 。 

(3) 阻塞 例 程 在 MPI 中 ， 阻塞 例 程 (发 送 或 接收 ) 在 它们 局 部 完成 后 就 可 返回 。 阻 塞 发 
送 例 程 的 局 部 完成 条 件 是 ， 保 存 消 息 的 单元 可 再 次 为 其 他 语句 或 例 程 所 使 用 或 是 其 内 容 改变 
但 不 会 影响 消息 的 发 送 。 阻 塞 发 送 将 发 送 消息 并 返回 。 但 这 并 不 表明 消息 已 被 接收 ， 而 只 是 
指 进程 可 以 自由 地 继续 执行 而 不 会 对 消息 产生 负面 影响 。 实 质 上 是 将 源 进 程 阻 塞 了 一 段 最 小 
时 间 ， 以 在 这 段 时 间 内 对 该 数据 进行 访问 。 当 一 个 阻塞 接收 例 程 局 部 完成 时 它 也 将 返回 ， 在 
这 种 情况 下 ， 这 意味 着 该 消息 已 被 接收 到 目的 单元 ， 并 可 以 读 出 该 目的 单元 。 

阻塞 发 送 例 程 参数 的 一 般 格 式 如 下 : 


MPI_Send(buf, count, datatype, dest, tag, comm) 


发 送 缓冲 区 地 址 | 每 项 的 数 消息 标记 。 通信 子 
要 发 送 的 据 类 型 
项 数 目的 进程 
的 序号 


阻塞 接收 例 程 参数 的 一 般 格式 为 : 


[55 | 


156 | 
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MPI_ Recv(buf, count, datatype, src, tag, comm, status) 


接收 缓冲 区 地 址 | 了 消息 标记 \ 操作 后 的 状态 
要 接收 的 据 类 型 
最 大 项 数 源 进 程 通信 子 
的 序号 


注意 ， 在 MPI_Recv ( ) 中 对 最 大 的 消息 尺寸 作 了 说 明 。 如 果 被 接收 的 消息 大 于 最 大 尺寸 ， 
将 发 生 溢 出 错误 。 如 果 接 收 的 消息 小 于 最 大 尺寸 ， 消 息 将 被 存储 在 缓冲 区 的 前 部 ， 而 其 余 的 
单元 将 不 受 影响 。 尽 管 我 们 通常 期 望 发 送 已 知 尺寸 的 消息 。 
例 从 进程 0 向 进程 1 发 送 一 个 整数 x。 
ap COM WORLD, &myrank) ; /* find process rank */ 
if (myrank == 0) { 
MPI_Send(&x, 1, MPI_INT, 1, msgtag, MPI_COMM WORLD); 
} else if (myrank == 1) { 
MPI_Recv (&x, 1, MPI_INT, 0, msgtag, MPI_COMM_WORLD, status); 


} 


(4) 非 阻塞 例 程 ” 非 阻塞 例 程 将 立即 返回 ; 也 就 是 说 ， 无 论 例 程 是 否 已 局 部 完成 都 允许 
继续 执行 下 一 条 语句 。 非 阻塞 发 送 MPI_Isend( ) (其 中 I 表 示 立 即 (immediate ) ) 将 在 源 单 
元 可 安全 地 改变 之 前 就 可 返回 。 非 阻塞 接收 MPI_Irecv( ) 即 使 没有 接收 消息 也 将 立即 返回 。 
它们 的 格式 如 下 : 


MPI_Isend(buf, count, datatype, dest, tag, comm, request) 
MPI_ Irecv(buf, count, datatype, source, tag, comm, request) 


可 以 分 别 用 MPI_Wait() 和 MPI_Test( ) 例 程 来 检查 发 送 或 接收 操作 是 否 已 经 完成 。 
MPI_Wait( ) 将 一 直 等 待 直至 操作 已 确实 完成 ， 然 后 再 返回 ; 而 MPI_Test( ) 则 立即 返回 ， 
并 以 标记 置 位 来 指明 在 那 一 时 刻 操 作 是 否 已 经 完成 。 这 些 例 程 需 与 一 个 特定 操作 相关 ， 通 过 
使 用 相同 的 request 参 数 就 可 作 到 这 一 点 。 非 阻塞 接收 例 程 提供 了 在 等 待 消息 到 达 期 间 进程 
继续 进行 其 他 活动 的 能 力 。 

例 从 进程 0 向 进程 1 发 送 一 个 整数 x， 并 允许 进程 0 继续 执行 

int x; 

MPI_Comm_rank (MPI_COMM_NORLD，&myrank) /* find process rank */ 

if (myrank == 0) { 

MPI_Isend(&x, 1, MPI_INT, 1, msgtag, MPI, COMM WORLD, reql); 
compute(); 
MPI _ Wait (reql, stdtus); 

) else if (myrank == 1) { 

MPI_Recv(&x, 0, MPI_INT, 1, msgtag, MPI.COMM WORLD, status); 

} 

4. 发 送 通信 方式 

MPI 发 送 例 程 可 为 四 种 通信 方式 中 的 一 种 ， 它 们 定义 了 发 送 /接收 协议 。 这 四 种 方式 为 标 
准 (standard)、 绥 冲 (buffered)、 同 步 (synchronous) 和 就 绪 (ready ) 。 

在 标准 方式 发 送 中 ， 并 不 假设 相应 的 接收 例 程 已 经 启动 。 如 果 有 缓冲 的 话 ， 缓 冲 区 的 大 
小 依赖 具体 实现 ，MPI 并 未 对 其 定义 。 如 果 提 供 缓冲 的 话 ， 发 送 在 接收 到 达 前 就 可 完成 (如 
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果 是 非 阻塞 的 ， 则 当 匹 配 了 MPI_Wait( ) 或 MPI_Test() 时 返回 便 完 成 )。 

在 缓冲 方式 中 ， 发 送 可 在 匹配 接收 之 前 就 启动 和 返回 。 对 于 这 种 方式 ， 必 须 在 应 用 程序 
中 提供 指定 的 缓冲 区 空间 。 缓冲 区 空间 可 借助 MPI 例 程 MPI_Buffer_attach() 提 供给 系统 ， 
并 可 用 例 程 MPI_Buffer_dqatach() 收 回 。 

在 同步 方式 中 ， 发 送 和 接收 两 个 例 程 中 任 一 个 例 程 均 可 在 另 一 个 例 程 之 前 启动 ， 但 两 者 
只 能 一 起 完成 。 

在 就 绪 方 式 中 ， 仅 当 与 匹配 接收 例 程 已 经 到 达 时 ， 发 送 才 可 开始 ， 否 则 将 出 错 。 使 用 这 
种 方式 时 必须 非常 谨慎 ， 以 免 错误 操作 。 

对 于 阻塞 和 非 阻 塞 的 发 送 例 程 ， 这 四 种 方式 均 可 使 用 。 对 其 中 的 三 种 非 标准 方式 在 助 记 
符 中 用 一 字母 加 以 标识 (缓冲 式 用 bp、 同 步 式 用 s、 以 及 就 绪 式 用 r )。 例 如 ，MPI_Issend() 
是 一 个 非 阻塞 同步 发 送 例 程 。 这 是 一 种 罕见 但 却 很 有 价值 的 组 合 。 发 送 将 立即 返回 ， 因 此 它 
不 会 与 含有 与 之 匹配 接收 的 进程 进行 直接 地 同步 ， 消 息 传送 将 假设 在 某 一 点 完成 ， 如 同 所 有 
立即 方式 的 例 程 一 样 ， 通 过 使 用 MPI_Wait( ) 或 MPI_Test( ) 就 可 以 确定 该 点 。 这 就 允许 例 
如 记录 同步 进程 要 花 多 长 时 间 ， 或 是 确定 是 否 存在 缺少 缓冲 存储 的 问题 。 也 存在 一 些 不 允许 
的 组 合 。 对 于 阻塞 和 非 阻 塞 接收 例 程 只 可 以 使 用 标准 方式 ， 且 并 不 假设 相应 的 发 送 已 经 开始 。 
任何 类 型 的 发 送 例 程 可 以 与 任何 类 型 的 接收 例 程 一 起 使 用 。 

5. 集合 通信 

与 点 对 点 通信 只 涉及 一 个 源 进 程 和 一 个 目的 进程 不 同 ， 集 合 通信 (Collective 
Communication ) (如 广播 通信 ) 将 涉及 一 组 进程 ， 这 些 进程 是 指 那些 由 内 通信 子 所 定义 的 那 
些 进 程 ， 它 们 不 需要 消息 标记 。 

广播 集中 和 分 散 例 程 MPI 提 供 了 一 个 广播 例 程 和 一 组 集中 和 分 散 例 程 。 通 信子 定义 了 将 
参与 该 集合 操作 的 进程 集合 。 操 作 数据 的 主要 集合 操作 如 下 : 


MPI_Bcast( ) 从 根 结 点 向 所 有 其 他 进程 广播 
MPI_Gather () 为 进程 组 集中 值 
MPI_Scatter() 将 缓冲 区 中 的 部 分 值 分 散 给 进程 组 
MPI_Alltoall() 从 所 有 进程 向 所 有 进程 发 送 数据 
MPI_Reduce() 将 所 有 进程 的 值 组 合成 一 个 值 
MPI_Reduce_scatter() 组 合 值 并 分 散 结 果 
MPI_Scan() 在 各 个 进程 上 计算 前 组 数据 归 约 
上 述 各 例 程 所 涉及 的 进程 是 指 在 同一 通信 子 中 的 进程 。 此 外 上 述 例 程 还 有 一 些 变 形 形 式 。 
有 关 各 例 程 中 的 参数 的 细节 可 参见 附录 A。 
例 为 了 从 进程 组 中 集中 数据 项 到 进程 0， 可 在 根 进程 中 对 存储 器 进行 动态 分 配 ， 我 们 可 
使 用 如 下 代码 : 
int data[10]; /*data to be gathered from processes*/ 
MPI_Comm_rank (MPI_COMM_WORLD，&myrank) : /* find rank */ 
if (myrank == 0) { 
MPI _Comm_size (MPI_ COMM WORLD, &grp size); /*find group size*/ 
buf = (int *)malloc (grp_size*1l0*sizeof (int)); /*allocate memory*/ 


} 
MPI_Gather (data, 10, MPI_INT, buf ,grp_ .size*10,MPI_INT,0, MPI.COMM WORLD); 
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应 注意 的 是 ，MPI_Gather( ) 从 所 有 进程 处 集中 数据 项 ， 包 括 根 进程 。 

障 栅 ”如 同 与 所 有 消息 传递 系统 一 样 ，MPI 提 供 了 一 种 同步 进程 的 方法 ， 它 将 停止 每 个 进 
程 直至 所 有 进程 都 已 到 达 指 定 的 “ 障 机 ”调用 。 在 第 6 章 研 究 同 步 计 算 时 ， 我 们 将 更 详细 地 叙 
述 障 机 同步。 

6. MPI 程 序 实例 

图 2-12 中 示 出 了 一 个 简单 的 MPI 程 序 。 该 程序 的 功能 是 将 一 组 数 相 加 。 这 些 数 是 随机 生成 
的 ， 且 保存 在 一 个 文件 中 。 该 程序 可 在 网 址 http: //www.cs.uncc.edu/par_prog 中 找到 ， 它 可 用 

来 熟悉 软件 环境 。 


#include “mpi.h” 
#include <stdio.h> 
#include <math.h> 
#Gefine MAXSIZE 1000 


void main{int argc, char **argv) 
{ 
int myid, numprocs; 
int data{MAXSIZE], i, x, low, high, myresult, result; 
char fn[255]; 
char *fp; 


MPI_Init(&kargc, &kargv); 
MPI_Comm_size (MPI_ COMM WORLD, &numprocs); 
MPI_Comm_rank (MPI_COMM_ WORLD, gmyid); 


if (myid == 0) { /* Open input file and initialize data */ 
strcpy (fn, getenv (“HOME")); 
strcat (fn,”"/MPI/rand data.txt”); 
if ((fp = fopen(fn,”r”)) == NULD) { 
printf(“Can’t open the input file: %s\n\n”, fn); 
exit(1); 
} 
for({i = 0; i < MAXSIZE; i++) fscanf (fp,”"%d"”, &datal[lil]); 


} 


/* broadcast data */ 
MPI_Bcast (data, MAXSIZE, MPI_INT, 0, MPI_COMM WORLD); 


/* Add my portion Of data */ 
x = MAXSIZE/numprocs; /* must be an integer */ 
low = myid * x; 
high = low + XxX; 
myresult = 0; 
for(i = low; i < high; I++) 
myresult += data{li}; 
printf (“I got %d from %d\n”, myresult, myid); 


Compute global sum */ 
MPI_Reduce (&myresult, g&result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM WORLD); 


if (myid == 0) printf(“"The sum is %d.\n”, result); 


MPI_ Finalize{); 





图 2-12 MPI 程 序 实例 


2.2.3 伪 代码 构造 


在 前 几 小 节 中 ,我 们 已 看 到 了 用 来 实现 基本 消息 传递 的 特定 的 MPI 的 例 程 。 有 时 有 许多 参 
数 需要 使 用 附加 的 代码 ， 而 且 常 常会 涉及 许多 其 他 方面 的 细节 。 例 如 ， 可 能 要 在 其 中 设置 错 
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误 检验 代码 。 在 C 语 言 中 ， 几 乎 所 有 MPI 例 程 在 错误 的 事件 中 将 返回 一 个 整数 错误 代码 ; 在 
C++ 中 ， 抛 出 异常 并 提供 错误 处 理 程序 。 在 任何 事件 中 ， 从 错误 类 表 中 可 识别 此 代码 并 采取 [60] 
适当 的 动作 。 这 种 附加 的 代码 虽然 在 构成 结构 化 良好 的 程序 时 是 需要 的 ， 但 实际 上 将 有 损 于 
程序 的 可 读 性 。 我 们 将 使 用 伪 代 码 而 不 使 用 真实 代码 来 描述 算法 。 我 们 的 伪 代 码 将 略 去 那些 
凌乱 的 参数 ， 这 些 参数 对 理解 代码 只 具有 辅助 作用 。 

进程 标识 将 放 在 参数 表 中 的 最 后 位 置 (如 MPI 中 那样 )。 要 从 称 为 master ( 主 ) 的 进程 
向 称 为 slave (从 ) 的 进程 发 送 由 一 个 整数 x 和 一 个 浮 点 数 y 组 成 的 消息 ， 并 将 它们 赋值 给 a 
和 b， 则 我 们 可 很 简洁 地 将 主 进程 写 为 

send (&x, &y, Pslave)’ 
以 及 将 从 进程 写 为 

recv(&a, &b, Phnaster}’ 
其 中 x 和 a 声明 为 整数 ， 而 y 和 b 声 明 为 浮 点 数 。 整 数 x 将 被 拷贝 到 a， 而 浮 点 数 y 被 拷贝 到 b 
(注意 ， 这 里 允许 灵活 地 说 明 具 有 不 同 数据 类 型 的 多 个 数据 项 ; 在 实际 代码 中 ， 可 能 需要 使 用 
独立 的 例 程 进行 说 明 或 创建 数据 类 型 )。 我 们 保留 了 & 符 号 以 指明 数据 参数 是 指针 (至 少 对 
recv( ) 必 须 如 此 ， 对 于 发 送 数组 也 需 如 此 )。 相 应 地 ， 第 ;个 进程 将 以 记号 Pi 表示 ， 而 标记 将 
在 源 或 目的 名 后 面 出 现 ; 即 

send (&x, P>, data tag); 
将 把 x 发 送 给 进程 2， 且 它 的 消息 标记 为 aata_tag。 相 应 的 接收 例 程 必须 有 相同 的 标记 (或 
通配符 标注 )。 有 了 时 需要 定义 更 复杂 的 数据 结构 ， 在 集合 通信 例 程 中 还 需要 有 附加 的 说 明 。 
在 我 们 的 伪 代 码 中 ,所 需 的 基本 消息 传递 例 程 的 最 常用 的 形式 是 本 地 阻塞 send ( ) 和 recv ( )， 
它们 可 写成 如 下 形式 : 


send (&datal, Pgestination); /* Locally blocking send */ 


recv (gdatal, Psource); /* Locally blocking receive */ 


在 许多 实例 中 ， 只 使 用 本 地 阻塞 的 方式 就 足够 了 。 其 他 的 各 种 方式 将 以 前 级 加 以 区 别 : 


ssend(&datal, Paestination)’ /* Synchronous send */ 


实际 上 ， 除 了 消息 传递 例 程 外 ， 所 列 出 的 代码 段 均 是 以 标准 C 语 言 表示 的 ， 尽 管 它 不 必 是 
最 优化 或 最 精确 的 方式 。 例 如 ， 除 了 循环 计数 器 外 ， 为 清晰 起 见 ， 我 们 不 使 用 压缩 形式 的 赋 
值 语句 (如 x += y; )。 在 伪 代 码 表示 中 ， 允 许 采 用 某 种 艺术 性 的 表述 。 指 数 以 通常 的 数学 方 
式 表 示 ， 一 般 不 给 出 变量 的 初始 化 等 等 。 但 是 ， 将 伪 代 码 翻 译 成 以 MPI 或 任何 其 他 的 消息 传 [6 
递 “ 语 言 ”所 表示 的 实际 消息 传递 代码 是 直截了当 的 。 
2.3 并 行程 序 的 评估 

在 以 后 的 儿童 中 ,我 们 将 叙述 实现 并 行 化 的 各 种 方法 ， 为 此 我 们 需要 对 这 些 方 法 进行 评 
估 。 作 为 准备 知识 ， 下 面 我 们 将 对 一 些 关 键 问 题 做 简单 前 述 。 
2.3.1 并 行 执行 时 间 方 程式 

首先 我 们 关心 的 是 并 行 实现 到 底 有 多 快 。 我 们 可 以 通过 统计 最 优 顺 序 算法 的 计算 步 数 开 
始 来 评估 在 单 计算 机 上 的 执行 时 间 *。 对 于 一 个 并 行 算法 ， 除 了 要 确定 计算 步 数 外 ， 我 们 还 需 


号 著名 的 不 含 错误 代码 的 MPI 例 程 是 MPI_Wtime( ) 返 回 一 个 双 精度 的 运行 时 间 。 该 例 程 被 假设 不 会 引起 错误 。 
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要 估计 通信 开销 。 在 消息 传递 系统 中 ， 在 求解 问题 的 整个 执行 时 间 中 必须 考虑 发 送 消 息 的 时 
间 。 并 行 执 行 时 间 , 是 由 两 部 分 组 成 的 : 一 个 计算 部 分 fcomp 和 一 个 通信 部 分 fcomm; 即 有 
tp= tcomp + fcomm 

1. 计算 时 间 

计算 时 间 可 使 用 类 似 于 顺序 算法 的 方法 通过 计数 计算 步 数 加 以 推算 。 当 有 多 个 进程 同时 
执行 时 ， 我 们 只 需 计 数 最 复杂 进程 的 计算 步 数 。 通 常 所 有 进程 都 完成 相同 的 操作 ， 所 以 我 们 
只 需 简单 地 计数 一 个 进程 的 计算 步 数 。 在 其 他 的 情况 中 ， 我 们 将 需要 找 出 并 发 进程 中 的 最 大 
计算 步 数 。 一 般 而 言 ， 计 算 步 数 是 x 和 p 的 函数 。 即 有 

tcomp = f (1, p) 
ty 的 时 间 单 位 与 计算 步 的 一 样 。 为 方便 起 见 ， 我 们 党 将 计算 时 间 用 消息 传递 分 成 各 个 部 分 ， 
然后 确定 每 个 部 分 的 计算 时 间 。 于 是 有 
fcomp = tcompl + fcomp2 + fcomp3 +**° 

其 中 kompl 、tcomp2 、tcomp3… 是 各 个 部 分 的 计算 时 间 。 

计算 时 间 的 分 析 通 常 假 设 所 有 处 理 器 均 相 同 且 以 相同 速度 运行 。 对 特殊 设计 的 多 计算 机 / 
多 处 理 机 来 讲 情况 确 为 如 此 ， 但 对 机 群 来 讲 就 不 一 定 如 此 。 机 群 的 一 个 重要 特征 是 计算 机 不 
必 全 相间 。 在 进行 数学 分 析 时 ， 车 考虑 异 构 系统 情况 将 有 很 大 难度 ， 因 此 我 们 的 分 析 将 假设 
所 有 计算 机 均 是 相同 的 。 通 过 选择 可 用 计算 机 间 平 衡 计算 负载 的 实现 方法 (负载 平衡 ，load 
balancing ) 就 可 将 不 同类 型 的 计算 机 考虑 在 内 ， 如 第 7 章 中 所 叙述 的 那样 。 

2. 通信 时间 

通信 时间 与 消息 的 数量 、 消 息 的 大 小 、 底 层 的 互联 结构 以 及 传送 方式 有 关 。 每 个 消息 的 
通信 时 间 与 许多 因素 有 关 ， 包 括 网 络 结构 和 网 络 竞争 。 作 为 最 初 的 近似 ， 我 们 将 使 用 下 列 公 
式 表 示 消 息 1 的 通信 时 间 : 

fcomm! 三 上 startup 十 Widata; 

其 中 karup 为 启动 时 间 ， 有 时 也 称 为 消息 时 延 。 实 际 上 它 是 发 送 不 包含 数据 的 消息 所 需 的 时 间 
(这 一 时 间 可 以 用 简单 方法 测 得 )。 它 包括 在 源 进程 处 将 消息 打包 以 及 在 目的 进程 处 将 消息 解 
包 所 需 的 时 间 。 如 同 在 第 1 章 中 一 样 ， 术 语 时 延 (latency) 用 来 描述 完整 的 通信 延 时 ， 所 以 这 
里 用 启动 时 间 这 一 术语 ， 且 假设 启动 时 间 为 一 常数 。taaws 这 一 项 
表示 发 送 一 个 数据 字 所 需 的 传送 时 间 ， 也 假设 它 为 一 常数 ，w 则 
表示 数据 字 的 数目 。 传 送 速率 通常 以 位 / 秒 (bits/second) 为 单 


位 。 当 数据 字 中 有 4b 位 时 ， 就 用 b/tawe 位 / 秒 来 表示 。 图 2-13 对 此 “至 

方程 做 了 说 明 。 当 然 在 实际 系统 中 ， 我 们 不 可 能 得 到 如 此 完美 训 动 时 间 

的 线性 关系 。 许 多 因素 会 影响 通信 时 间 ， 包 括 对 通信 介质 的 争 

用 。 方 程式 色 略 了 在 实际 系统 中 存在 这 样 的 事实 ， 即 源 和 目的 数据 项 数 (7) 


可 能 不 直接 链接 以 致 于 消息 传递 必须 经 过 中 间 结 点 。 此 外 ， 还 图 2-13 理想 的 通信 时 间 
假设 由 于 在 包 中 含有 非 数 据 的 信息 而 导致 的 开销 也 是 一 个 常数 ， 且 是 tonmwp 的 一 部 分 。 

最 后 的 通信 时 间 icomn 将 是 一 个 进程 中 所 有 顺序 消息 的 通信 时 间 的 累加 和 和 ， 于 是 有 : 

tcomm = fomml + fcomm2 十 fcomm3 十 … 

其 中 ，romml ，tonmz，tomm3… 是 各 消息 的 通信 时 间 。( 通 常 所 有 进程 的 通信 模式 是 相同 的 ， 并 
假设 是 一 起 发 生 的 ， 因 而 只 需 考虑 一 个 进程 。) . 

由 于 启动 时 间 twnwp 和 数据 传输 时 间 taas 均 以 计算 步 单位 衡量 ， 这 样 我 们 就 可 将 tcomp 和 tcomm 
加 在 一 起 来 得 到 并 行 执行 时 间 。 
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3. 基准 测试 程序 系数 
一 旦 我 们 获得 了 顺序 执行 时 间 #*、 计 算 时 间 #*om 和 通信 时 间 #komm， 我 们 就 可 如 在 第 1 章 中 所 
叙述 的 那样 为 任何 给 定 的 算法 /实现 确定 加 速 系数 和 计算 /通信 比 ， 即 : 
大 大 
ty tcompticomm 


计算 /通信 比 = 二 


fcomm 


两 个 系数 均 是 处 理 器 数 p 和 数据 元 素数 的 函数 ， 并 将 为 增加 处 理 器 数 和 增 大 问题 规模 的 并 行 求 
解 给 出 可 扩展 性 的 指示 。 特 别 是 计算 /通信 比 将 突出 通信 在 增加 问题 规模 和 系统 规模 时 的 影响 。 

4. 对 方程 式 解释 的 重要 评注 

在 后 面 几 章 的 分 析 中 将 会 有 许多 假设 ， 而 分 析 的 唯一 自 的 是 给 出 一 个 起 始点 以 指明 在 实 
际 中 一 个 算法 是 如 何 完成 的 。 并 行 执行 时 间 将 被 标准 化 成 以 算术 操作 单位 来 衡量 ， 当 然 这 
将 依赖 于 计算 机 系统 。 为 了 便于 分 析 ， 系 统 将 被 假设 为 是 同 构 的 。 每 个 处 理 器 均 相同 且 以 相 
同 速度 运行 。 同 样 ， 所 有 的 算术 操作 将 被 认为 需要 相同 时 间 ， 例 如 除法 所 需 的 时 间 与 加 法 所 
需 的 时 间 相 同 。 虽 然 在 实际 中 很 可 能 不 是 这 样 ， 但 在 分 析 时 通常 都 做 这 样 的 假设 。 构 成 程序 
时 所 需 的 任何 附加 操作 ， 如 迭代 的 计数 均 不 考虑 。 

我 们 将 不 对 发 送 一 个 整数 和 发 送 一 个 实数 或 是 其 他 格式 加 以 区 别 。 所 有 这 些 格式 都 被 假 
设 需要 相同 时 间 (这 实际 也 是 不 真实 的 一 一 在 大 多 数 实现 中 ， 传 送 一 个 8 位 的 字符 所 需 时 间 将 
小 于 发 送 一 个 64 位 的 浮 点 数 所 需 的 时 间 。) 然而 在 许多 求解 问题 中 ， 被 发 送 数据 的 数据 类 型 通 
常 始终 是 相同 的 。 实 际 的 启动 和 传输 时 间 也 依赖 于 计算 机 系统 ， 对 不 同系 统 它们 可 能 相差 很 
大 。 通 常 启动 时 间 至 少 比 传输 时 间 高 出 1 到 2 个 数量 级 ， 而 后 者 又 远大 于 算术 操作 时 间 。 实 际 
上 ， 启 动 时 间 在 许多 情况 下 将 支配 通信 有 时间。 我 们 不 能 忽略 该 项 ， 除 非 非 常 大 (然而 ， 在 将 
方程 式 转换 成 阶 记号 时 ， 可 能 将 其 忽略 ， 参 见 2.3.2 节 )。 

例 假设 一 台 计 算 机 的 最 大 运行 速率 为 IGFLOP (每 秒 10 亿 次 浮 点 运算 ) 并 且 启 动 时 间 为 

lus。 则 在 消息 启动 时 间 内 ， 计 算 机 可 执行 1 000 次 浮 点 操作 。 

5. 时 延 隐藏 

在 前 面 的 例子 中 ， 每 个 消息 需要 花费 相当 于 1 000 次 浮 点 运算 的 计算 来 进行 消息 的 启动 。 
这 种 影响 常 被 共享 存储 器 的 支持 者 引证 为 消息 传递 多 计算 机 的 “ 阿 喀 更 斯 的 脚 题 ”(Achilles- 
heel) 9 。 改 善 这 种 情况 的 一 种 方法 是 使 通信 与 后 续 的 计算 重合 操作 ; 也 就 是 说 ， 在 等 待 通 
信 结 束 时 ， 同 时 使 处 理 器 忙于 有 用 的 工作 ， 这 就 是 所 谓 的 时 延 隐 藏 。 特 别 是 非 阻塞 的 发 送 例 
程 提供 了 时 延 隐藏 的 可 能 性 ， 但 即使 是 〈 本 地 ) 阻塞 发 送 例 程 也 允许 在 等 待 目 的 进程 接收 消 
息 时 从 事后 续 计算 ， 且 也 许 返回 一 个 消息 。 习 题 2-8 中 将 用 该 方法 实验 性 地 对 时 延 隐藏 进行 
研究 。 . 
时 延 隐藏 也 可 以 通过 将 多 个 进程 映射 到 一 个 处 理 器 上 ， 并 使 用 分 时 机 制 来 加 以 实现 ， 当 
第 一 个 进程 因 未 完成 消息 传递 或 由 于 其 他 原因 而 停顿 时 它 就 从 一 个 进程 转向 另 一 个 进程 。 有 
时 称 这 些 进程 为 虚拟 处 理 机 。 在 一 个 有 p 个 处 理 器 的 计算 机 上 实现 m 个 进程 (或 虚拟 机 ) 算法 
被 称 为 该 计算 机 具有 m/p 并 行 不 完善 性 (parallel slackness )，、 这 里 的 p <m。 使 用 并 行 不 完善 性 
隐藏 时 延 依 赖 于 从 一 个 进程 切换 到 另 一 进程 的 有 效 的 方法 。 线 程 能 提供 这 种 有 效 的 机 制 。 更 
详尽 的 阐述 请 参见 第 8 章 。 

”在 希腊 神话 传说 中 ， 英 雄 阿 哮 琉 斯 在 出 生 后 被 其 母 倒 提 着 在 竖 河 中 浸 过 ， 除 未 漫 到 的 脚跟 外 ， 浑 身 刀 枪 不 

入 。 阿 喀 琉 斯 的 脚 旺 喻 指 致 命 弱点 。 一 一 译 者 注 








[64 | 





48 第 一 部 分 基 厅 技术 


2.3.2 时 间 复 杂 性 


如 同 顺 序 计算 一 样 ， 并 行 算法 可 用 时 间 复 杂 性 来 加 以 评估 (请 注意 记号 0 一 “ 值 的 阶 ”、 
“大 O07”) [KKnuth，1976]。 在 顺序 程序 设计 中 我 们 已 熟悉 了 该 记号 ， 当 某 个 变量 (通常 是 数据 
大 小 ) 趋向 无 穷 大 时 ， 可 用 它 来 把 握 一 个 算法 的 特征 。 在 比较 算法 的 执行 时 间 时 (时 间 复 杂 
性 ) 该 记号 特别 有 用 ， 但 它 也 可 用 于 计算 的 其 他 方面 ， 如 对 存储 器 的 需求 ( 空间 复杂 性 ) 以 
及 并 行 算法 中 的 加 速 比 和 效率 。 让 我 们 首先 复习 一 下 时 间 复 杂 性 在 顺序 算法 中 的 应 用 。 

当选 用 表示 执行 时 间 的 记号 时 ， 我 们 从 估计 计算 步 的 数目 开始 ， 我 们 认为 所 有 的 算术 和 膛 
辑 操作 均 相等 ， 并 忽略 计算 的 其 他 方面 ， 如 计算 测试 。 对 计算 步 数 表达 式 的 推导 通常 与 算法 处 
理 的 数据 项 的 数目 有 关 。 例如 , 假定 一 个 算法 Al 需 要 对 x 个 数据 项 完成 个 4x?+ 2x + 12 个 计算 步 。 
当 增 加 数据 项 的 数目 时 ， 总 的 操作 数 将 越 来 越 依 赖 于 4x? 这 一 项 。 这 个 第 一 项 将 “支配 ”其 他 
项 ， 且 最 终 使 其 他 项 变 得 无 关 紧 要 。 在 该 例 中 ， 函 数 的 增长 是 多 项 式 的 。 对 于 另 一 个 算法 A2， 
求解 同一 问题 将 需要 5logx + 200 个 计算 步 (在 本 书 中 , 假设 对 数 的 底数 均 为 2， 除 非 男 有 说 明 )。 
对 于 较 小 的 +-， 它 将 比 第 一 个 函数 Al1 有 更 多 的 步 数 ， 但 当 x 增 大 达到 某 一 点 时 ， 第 二 个 函数 A2 
将 比 Al 需 要 更 少 的 计算 步 数 ， 因 而 显得 更 为 优越 。 在 函数 5logx+200 中 ， 第 一 项 (5logx) 最 终 
将 占 支配 地 位 ， 而 另 一 项 (200) 可 被 忽略 ， 因 而 在 比较 时 ， 我 们 只 需 考虑 占 支配 地 位 的 那 一 
项 。 霄 数 logx 的 增长 是 对 数 式 的 。 对 于 足够 大 的 x， 对 数 增长 将 小 于 多 项 式 增长 。 使 用 O 记 号 
(大 0) 可 使 我 们 把 握 增 长 模式 。 算 法 AI 的 大 0 为 O ( 关 ) ， 而 算法 A2 的 大 0 则 为 O 《logx)。 

1. 形式 化 定义 

O 记 号 可 形式 化 定义 如 下 : . 

f(x) = O(g(x))， 当 且 仅 当 存 在 正常 数 c 和 xo， 如 果 对 于 所 有 的 +> xo， 有 0 < 了 (x) < cg(x)。 
其 中 f (x) 和 g(?) 是 x 的 函数 。 例 如 ， 如 果 玫 (x) =4x?+2x+12， 则 常数 c = 6 将 符合 Ko = O(x?) 的 形 
式 化 定义 ， 因 为 当 x>3 时 ，0<4x?2+ 2x + 12 < 6x2。 : 

不 幸 的 是 ， 该 形式 化 定义 也 会 导致 8(x) 的 其 他 函数 也 可 满足 这 一 定义 。 例 如 ，8gGCo = 妇 也 
满足 定义 ， 即 当 x> 3 时 ， 有 4x?+ 2x + 12& 22。 一 般 地 ， 我 们 将 选用 使 *Co 具有 最 小 增长 的 那 
个 函数 。 事 实 上 ， 在 许多 情况 下 ,会 有 一 个 “严格 的 约束 ”， 使 得 在 一 个 常 系 数 范 围 内 ， 函 数 
(7%) 会 与 8(x) 相等 。 这 一 关系 可 用 记号 9 表述 ， 

9 记号 可 形式 化 的 定义 如 下 : 

f(x) = @ (800)， 当 且 仅 当 存 在 常数 cl、cz 以 及 z， 使 得 对 于 所 有 的 x> xo， 有 0 < cig(x) < 

f(x) & cg(X)。 

如 果 f (x) =B (g(x))， 则 显然 有 f (Xx) = 0 (8(x))。 对 于 函数 六 (Xx) = 4x?+ 2x + 12 而 言 ， 图 2-14 
说 明了 如 何 满足 这 些 条 件 的 一 种 方法 。 实 际 上 对 于 g(x) = 好 ， 我 们 可 用 许多 方法 来 满足 这 些 条 
件 , 但 可 以 看 到 当 c; = 2、cs = 6 以 及 Xo = 3 时 将 会 成 功 ， 即 2x < 了 (x) < 6x?* 。 因 此 ， 我 们 可 以 说 
f(x) = 4x?+2x + 12 = B(x*)， 它 比 使 用 O (x”) 更 为 精确 。 当 且 仅 当 能 满足 函数 增长 的 上 限时 ， 
我 们 才 应 使 用 大 0 记号 。 但 是 在 实际 使 用 过 程 中 ， 在 任何 情况 下 总 是 使 用 大 0。 

电 记 号 函数 增长 的 下 限 可 用 QQ 记号 描述 ， 它 的 形式 化 定义 如 下 : 

f(xX) = 8 (8 (x))， 当 且 仅 当 存在 正常 数 c 和 xo 使 得 对 所 有 x>xo 有 0< cg(x) <f (x)。 
根据 这 一 定义 有 AD = 4x?+ 2x + 12= 8 (x?) ( 见 图 2-14)。 我 们 将 O 0) 读 作 “增长 至 多 像 …… 那 
样 快 "， 而 将 ( ) 读 作 “ 增 长 至 少 像 …… 那 样 快 "， 函 数 f oo = @ (g(x)) 为 真 ， 当 且 仅 当 f (x) = 
2 (800) 和 f (x) =O(8CD)。 

人 记号 可 用 来 指明 最 好 个 例 情况 。 例 如 ， 一 个 排序 算法 的 执行 时 间 常 依赖 于 欲 被 排序 数 的 
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原来 的 排序 情况 。 为 排序 4 个 数 ， 它 可 能 至 少 需要 nlogn 步 ,但 也 可 能 需要 nn? 步 ， 这 全 取决 于 
原来 这 些 数 的 排序 情况 。 用 时 间 复 杂 性 来 表示 就 可 写成 Q(nlogn) 和 O(n?)。 


c2B(X) = 6 
160 
140 fx) = 4x: +2x+12 
120 
100 
80 . 
60 cig(x) = 2 
40 
1 
20 | 
1 
1 
0 
0 1 2 3 4 5 


Xo 


图 2-14 函数 /0x) = 42+ 2x + 12 的 增长 


2. 并 行 算法 的 时 间 复 杂 性 

如 果 我 们 用 时 间 复 杂 性 分 析 ，、 它 将 隐 去 那些 较 低 项 ， 这 样 ieomm 的 时 间 复 杂 性 便 为 O(n)。1， 
的 时 间 复 杂 性 将 是 计算 复杂 性 和 通信 复杂 性 之 和 。 

例 假定 我 们 在 两 台 计 算 机 上 加 x 个 数 ， 其 中 每 台 计 算 机 各 加 my/2 个 数 ， 开 始 时 所 有 的 数 均 

存在 第 一 台 计算 机 中 。 第 二 台 计 算 机 将 它 的 结果 交 给 第 一 台 计 算 机 ， 再 由 第 一 台 计 
算 机 将 两 个 部 分 和 加 在 一 起 。 该 问题 的 求解 有 以 下 几 个 阶段 : 

1) 计算 机 1 将 WwW2 个 数 发 送 给 计算 机 2。 

2) 两 台 计 算 机 同时 将 w2 个 数 相 加 。 

3) 计算 机 2 将 它 的 部 分 结果 送 回 给 计算 机 1。 

4) 计算 机 1 将 两 个 部 分 和 相 加 产生 最 后 结果 。 

正如 在 大 多 数 并 行 算法 中 那样 ， 这 里 有 计算 和 通信 ， 通 常 将 它们 分 别 考虑 : 

计算 〈 步 又 2 和 步 晤 4): 

tomp= 1/2+1 
通信 (步骤 1 和 步骤 3): 
fcomm = (fstartup + /21aata) + stanvp + faata) = 2istanup + (1/2+1)taama 

由 计算 公式 可 知 : 其 计算 复杂 性 为 O(n)， 通 信 复杂 性 为 O(n)。 因 而 整个 的 时 间 复 杂 性 为 O(n)。 

(1) 计算 /通信 上 比 ” ”通常 通 信和 的 代价 是 很 高 的 。 如 果 计 算 和 通信 有 相同 的 时 间 复 杂 性 ， 则 
增加 a 就 不 可 能 改善 性 能 。 理 想 的 情况 是 ， 计 算 的 时 间 复 杂 性 应 大 于 通信 的 时 间 复 杂 性 ， 此 时 
随 着 ?的 增加 就 可 改进 性 能 。 例 如 , 假定 通信 的 时 间 复 杂 为 O(n), 而 计算 的 时 间 复 杂 性 为 O(n2)， 
则 当 增 加 x 时 ， 最 终 可 发 现 当 nn 增 大 到 一 定 值 后 ， 计 算 时 间 将 支配 整个 的 执行 时 间 。 有 许多 著 
名 的 例子 都 是 这 种 情况 。 例 如 ， 在 第 1 章 中 提 及 的 ， 以 及 在 第 4 章 详尽 讨论 的 N 体 问题 ， 它 的 通 
信 时 间 复 杂 性 为 O(N)， 而 计算 时 间 复 杂 性 为 ON?) (使 用 直接 的 并 行 算法 )。 这 是 少数 求解 问 
题 中 的 一 个 ， 这 类 问题 的 规模 可 能 非常 大 。 

(2) 代价 和 代价 优化 算法 一 个 计算 的 处 理 器 -时间 乘 积 或 代价 (工作 ) 可 定义 为 ; 
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代价 = (执行 时 间 ) x (所 使 用 的 处 理 器 总 数 ) 
一 个 顺序 计算 的 代价 仅 是 它 的 执行 时 间 t;。 一 个 并 行 计算 的 代价 是 t,x p。 一 个 代价 优化 并 行 算 
法 是 指 在 这 种 算法 中 求解 问题 的 代价 正比 于 在 单 处 理 机 系统 上 的 执行 时 间 (用 已 知 最 快 的 顺 
序 算法 ) ; 即 
代价 = t,xp=kxit 
其 中 k 是 一 个 常数 。 使 用 时 间 复 杂 性 分 析 ， 我 们 说 一 个 并 行 算 革 是 代价 优化 算法 ， 如 果 有 
(并 行 时 间 复 杂 性 ) x (处 理 器 数 ) = 顺序 时 间 复 杂 性 
例 假定 求解 一 个 有 n 个 数 的 问题 的 已 知 最 好 顺序 算法 的 时 间 复 杂 性 为 O(nlogn)。 若 求解 


同一 问题 的 并 行 算 法 使 用 p 个 处 理 器 并 且 它 的 时 间 复 杂 性 为 O ( Slogn), 它 便 是 代价 优 


化 的 ， 而 车 一 个 并 行 算法 使 用 p? 个 处 理 器 ， 它 的 时 间 复 杂 性 为 O 加 它 便 不 是 代 
价 优化 的 。 
2.3.3 对 渐 近 分 析 的 评注 


与 时 间 复 杂 性 广泛 用 作 顺 序 程序 分 析 和 并 行程 序 的 理论 分 析 不 同 ， 时 间 复 杂 性 记号 在 评 
估 并 行 算法 的 潜在 性 能 方面 却 难 有 所 作为 。 大 O 和 其 他 复杂 性 记号 使 用 渐 近 方法 ( 即 允许 被 考 
察 的 变量 趋向 无 穷 大 )， 它 可 能 不 是 完全 相关 的 。 由 分 析 得 出 的 结论 是 基于 所 考察 的 变量 的 ， 
通常 它 或 是 数据 大 小 或 是 处 理 器 数 ， 且 它们 的 增长 将 趋向 于 无 穷 大 。 但 是 ， 通 常 处 理 器 数 是 
有 限 的 ， 因 此 我 们 不 可 能 将 处 理 器 数 扩展 成 无 穷 大 。 类 似 地 ， 我 们 感 兴趣 的 是 有 限 的 和 可 管 
理 的 数据 大 小 。 此 外 ,分 析 所 忽略 的 次 要 项 也 许 是 非常 重要 的 。 例 如 ， 通 信 时 间 方 程 : 

teomm = fstarup + Widata 

的 时 间 复 杂 性 为 O(w)， 但 对 于 合理 大 小 的 w 值 ， 启 动 时 间 将 完全 支配 整个 通信 时 间 。 最 后 ， 
该 分 析 也 忽略 了 在 实际 计算 机 中 出 现 的 其 他 因素 ， 例 如 通信 竞争 。 

共享 存储 器 程序 

到 目前 为 止 ， 大 多 数 的 讨论 都 集中 在 消息 传递 程序 上 。 对 于 共享 存储 器 程序 ， 由 于 通信 
部 分 不 再 存在 ， 因 此 时 间 复 杂 性 就 简化 成 仅 是 计算 的 ， 尤 如 顺序 程序 那样 。 在 那 种 情况 下 ， 
时 间 复 杂 性 就 可 能 更 为 贴切 。 但 是 ， 共 享 存储 器 程序 要 考虑 另 一 个 附加 因素 ， 即 对 共享 数据 
的 访问 必须 以 受 控 方 式 进行 ， 从 而 导致 了 附加 的 延迟 。 在 第 8 章 中 将 阐述 这 方面 的 内 容 。 


2.3.4 广播 /集中 的 通信 时 间 


尽管 我 们 对 理论 分 析 作 了 评注 ， 让 我 们 考察 某 些 广播 /集中 操作 以 及 它们 的 复杂 性 。 几 乎 
所 有 的 问题 都 需要 将 数据 广播 给 各 个 进程 并 从 各 个 进程 处 集中 数据 。 大 多 数 的 软件 环境 都 支 
持 广 播 和 集中 ， 而 所 采用 的 具体 算法 将 依赖 于 多 计算 机 基本 的 体系 结构 。 在 过 去 ， 程 序 员 可 
能 具有 某 些 互 联 体系 结构 的 知识 〈 如 网 格 等 ) 并 能 对 它 有 效 利 用 ， 但 今天 这 种 互联 体系 结构 
通常 对 程序 员 是 隐蔽 的 。 

在 本 书 中 ， 我 们 讨论 的 重点 是 使 用 机 群 。 同 样 ， 确 切 的 互联 结构 对 用 户 将 是 隐蔽 的 ， 尽 
管 很 可 能 使 用 交换 器 在 计算 机 韶 提 供 完 全 的 同时 连接 。 在 久远 的 过 去 ， 以 太 网 用 单线 连接 所 
有 计算 机 。 在 单 以 太 网 链 路 上 进行 广播 时 ， 可 以 采用 让 单个 消息 由 网 络 上 的 所 有 目的 结 点 同 
时 读 取 来 完成 (以 太 网 协议 提供 这 种 通信 方式 )。 因 此 ， 广 播 方 式 是 非常 高 效 的 且 只 需 一 个 
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消息 : 
tcomm = fstartup + Widata 

对 于 一 个 数据 项 来 讲 其 时 间 复 杂 性 为 O (1); 对 w 项 数据 来 讲 ， 其 时 间 复 杂 则 为 O (w)。 

当然 大 多 数 机 群 化 计算 机 会 使 用 各 种 网 络 结构 ， 
但 这 些 网 络 结构 不 会 提供 如 单 以 太 网 中 那 种 便利 的 广 
播 介质 。 通 常 消息 从 最 初 的 计算 机 发 送 到 多 个 目的 ， 
而 这 些 目 的 每 一 个 又 将 同一 消息 依次 发 送 给 多 个 目 
的 。 一旦 消息 到 达 目 的 进程 ， 它 就 被 转换 成 1 到 N 个 扇 
出 的 广播 调用 ， 从 那里 将 同一 消息 依次 发 送 给 每 一 个 
目的 ， 如 图 2-15 所 示 。 对 集中 来 讲 将 需要 同样 的 构造 ， 
只 是 消息 以 相反 方向 传送 。 不 管 是 哪 一 种 情况 ， 限 制 
的 因素 是 消息 的 发 送 或 接收 是 否 是 顺序 的 ， 这 就 导致 图 2-15 1 对 NN 的 扁 出 广播 
单 源 到 NN 个 目的 的 通信 时 间 复 杂 性 为 O(N): 

tcomm = N (fstarwp + Wi qata) 

我 们 假设 每 一 层 的 消息 将 同时 出 现 (当然 实际 上 不 可 能 这 样 )。 

图 2-16 中 示 出 了 应 用 在 树 结构 中 的 1 对 N 的 岛 出 广播 。 这 里 的 复杂 性 将 依赖 于 每 一 层 的 结 
点 数 和 层 数 。 对 一 个 二 又 树 ， 有 N = 2， 且 如 果 有 2 个 最 终 目的 结 点 它 将 有 log p 级 ， 则 就 有 : 

tcomm = 2(log p) (tstanwp +Wiaata) 

这 里 也 假定 消息 在 每 一 层 出 现 是 同时 的 。( 作为 一 个 习题 请 读者 推导 不 作 此 假定 时 的 通信 时 间 。) 








目的 
图 2-16 树 结构 中 的 1 对 N 的 扁 出 广播 


广播 的 二 又 树 实现 的 一 个 缺点 是 ， 如 果 在 树 中 有 一 个 结 点 失效 ， 那 么 在 它 下 面 的 所 有 结 
点 都 将 收 不 到 消息 。 此 外 ， 在 库 调 用 中 实现 二 又 树 是 比较 困难 的 。 当 然 程 序 员 也 可 在 进程 中 
以 显 式 编码 来 实现 二 又 树 。 . 


2.4 用 经 验方 法 进行 并 行程 序 的 调试 和 评估 
在 编写 一 个 并 行程 序 时 ， 我 们 首先 要 使 它 能 正确 地 执行 。 然 后 我 们 才 会 对 程序 能 执行 多 
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快感 兴趣 。 最 后 ， 我 们 将 看 是 否 能 做 到 执行 得 更 快 。 
2.4.1 低层 调试 


使 一 个 并 行程 序 能 正确 地 工作 是 巨大 的 智力 挑战 。 先 编写 一 个 基于 最 终 并 行 算 法 的 顺序 
版 本 是 非常 有 用 的 。 已 经 说 过 ， 必 须 使 并 行 代码 能 正确 的 工作 。 顺 序 ( 串 行 ) 程序 中 的 错误 
可 通过 调试 发 现 。 通 常 采用 的 方法 是 对 该 代码 进行 测试 ， 即 在 程序 中 插入 一 些 在 程序 执行 时 
能 够 输出 中 间 计 算 值 的 代码 ， 使 用 打印 语 甸 输出 这 些 中 间 值 。 在 并 行程 序 中 也 可 使 用 类 似 技 
术 ,， 但 是 使 用 这 种 方法 会 造成 某 些 非常 严重 的 后 果 。 第 一 个 也 是 最 重要 的 一 个 后 果 是 ， 测 试 
一 个 顺序 代码 只 是 简单 地 使 其 执行 变 慢 ， 但 它 仍 能 确定 性 地 有 效 工 作 并 且 会 产生 相同 答案 。 
但 在 不 同 进程 中 通过 插入 代码 来 调试 并 行程 序 时 ， 则 不 但 会 使 计算 的 速度 明显 变 慢 ， 而 且 还 
会 使 指令 以 不 同 的 交叉 顺序 执行 。 这 是 因为 ， 一 般 来 说 每 个 进程 将 会 受到 不 同 影响 的 缘故 。 
此 外 还 会 出 现 这 样 的 情况 ， 即 在 插入 测试 代码 后 ， 有 可 能 使 原本 不 正常 工作 的 程序 转 而 开始 
工作 一 一 这 就 确定 无 疑 地 表明 问题 出 在 进程 间 的 定时 。 

应 提醒 的 是 ， 由 于 进程 可 能 在 远程 计算 机 上 执行 ， 因 此 打印 语句 的 输出 可 能 需要 重 定向 
到 一 个 文件 中 ， 以 使 其 能 在 本 地 计算 机 中 看 到 。 消 息 传递 软件 通常 具有 重 定 向 输出 的 工具 。 

最 低层 的 调试 (在 极端 情况 下 ) 需 使 用 调试 器 。 初 等 的 顺序 程序 调试 工具 ， 如 dbx， 可 
用 来 检验 寄存 器 (虽然 很 少 被 使 用 )， 以 及 设置 “ 断 点 ”以 停止 执行 。 但 在 并 行程 序 的 调试 中 ， 
使 用 这 些 技术 几乎 是 毫 无 价值 的 ， 这 是 因为 无 法 确切 知道 在 不 同 进 程 中 的 交叉 顺序 等 因素 的 
缘故 。 一 种 解决 方案 是 在 各 处 理 器 上 运行 该 调试 器 ， 并 在 各 自 的 显示 窗口 监视 输出 。 由 于 一 
个 并 行 计算 可 能 会 有 许多 同时 执行 的 进程 ， 从 而 会 使 此 方法 无 实用 价值 。 在 动态 创建 进程 的 
情况 下 ， 可 能 需要 系统 设施 通过 调试 器 来 启动 派生 进程 。 

并 行 计算 具有 无 法 由 常规 的 顺序 调试 器 捕捉 到 的 一 些 特征 ， 如 事件 的 定时 。 事 件 仅 在 某 
种 条 件 出 现时 方 可 被 识别 。 除 了 在 顺序 程序 中 可 能 出 现 的 如 对 一 个 存储 单元 的 访问 之 外 ， 在 
这 种 场合 下 ,一 个 “事件 ”可 能 就 是 消息 的 发 送 或 接收 。 已 经 开发 了 一 些 并 行 调试 器 
[McDowell and Helmbold, 1989]。 


2.4.2 可 视 化 工具 


并 行 计算 有 助 于 其 活动 的 可 视 化 指示 ， 而 消息 传递 软件 常 把 提供 可 视 化 工具 作为 整个 并 
行程 序 设计 环境 的 一 部 分 。 程 序 可 以 在 时 空 图 (或 进程 -时 间 图 ) 中 执行 时 被 观察 。 图 2-17 中 
示 出 了 一 个 假设 的 例子 。 每 个 等 待 间 隔 表 明 进 程 处 于 闲置 状态 ， 通 常 是 等 待 接收 一 个 消息 。 
这 种 可 视 化 的 描述 有 助 于 准确 定位 有 错 的 动作 。 可 将 构成 时 空 图 的 事件 加 以 捕获 和 保存 ， 以 
便 可 再 现 描 述 而 无 需 将 程序 重新 执行 。 此 外 感 兴趣 的 将 是 时 间 利 用 图 (utilization-time 
diagram ) ， 它 将 显示 出 每 个 进程 耗费 在 通信 、 等 待 以 及 消息 传递 库 例 程 上 的 时 间 。 除 了 有 助 
于 调试 外 ， 时 间 利 用 图 还 可 表明 计算 的 效率 。 最 后 ， 当 进程 在 二 维 空间 中 表示 以 及 状态 的 变 
化 以 电影 形式 表示 上 时， 动画 可 能 很 有 用 。 

已 为 MPI 提 供 了 可 视 化 工具 的 实现 。Uphost 程 序 可 视 化 系统 [Herrarte and Luske，1991] 就 
是 一 个 例子 。 可 视 化 的 所 有 形式 蕴含 着 将 软件 “ 探 针 ” 插 到 执行 中 ， 它 可 能 会 改变 计算 的 特 
征 。 可 以 肯定 的 是 ， 它 会 使 计算 的 进展 大 为 放 慢 (也 可 使 用 硬件 性 能 监控 器 ， 它 通常 不 会 影 


[171 响 性 能 。 例 如 对 系统 总 线 的 简单 监控 ,但 是 这 些 方法 并 未 被 广泛 使 用 )。 
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图 2-17 并 行程 序 的 时 空 图 
2.4.3 调试 策略 


[Geist et al.，1994a] 建 议 用 三 步 法 来 调试 消息 传递 程序 : 

1) 如 果 可 能 的 话 ， 将 程序 作为 单 进程 运行 ， 并 作为 通常 的 顺序 程序 进行 调试 。 

2) 在 单 计 算 机 上 用 2 到 4 个 多 任务 进程 来 执行 程序 ， 同 时 对 一 些 动 作 进行 考察 ， 如 检查 消 
息 是 否 被 送 到 了 正确 的 位 置 。 因 为 经 常会 用 错 消息 标记 ， 从 而 使 消息 传送 到 错误 位 置 。 

3) 在 若干 台 计 算 机 上 用 同样 的 2 到 4 个 进程 来 执行 程序 。 这 一 步 将 有 助 于 发 现 因 网 络 延 时 
而 导致 的 与 同步 和 定时 有 关 的 问题 。 

作为 良好 的 程序 设计 习惯 ， 在 程序 中 放置 错误 检测 代码 总 是 非常 重要 的 ， 而 在 并 行程 序 
中 特别 重要 的 是 要 保证 能 处 理 导 致 出 错 的 条 件 以 及 防止 死 锁 的 发 生 。 当 检测 出 一 个 错误 后 ， 
许多 消息 传递 例 程 将 返回 一 个 出 错 代码 。 虽 然 这 些 例 程 不 一 定 会 被 执行 ， 但 一 旦 它们 出 现时 ， 
就 应 能 识别 这 些 出 错 代码 。 它 们 在 调试 时 也 很 有 用 。 也 可 使 MPI 返 回 出 错 代 码 ， 虽 然 其 默认 
的 情况 是 ， 当 遇 到 错误 时 就 使 程序 异常 终止 。 


2.4.4 评估 程序 


1. 执行 时 间 的 测量 

时 间 复 杂 性 分 析 可 洞察 并 行 算 法 的 于 力 ， 且 在 比较 不 同 算法 时 也 非常 有 用 。 但 是 ， 如 我 
们 在 2.3.3 节 中 对 时 间 复 杂 性 分 析 所 作 的 评注 那样 ， 仅 当 算 法 被 编码 且 在 多 处 理 机 系统 上 执行 
后 ,才能 确实 知道 实际 执行 的 算法 倒 底 有 多 好 。 如 同 低层 调试 一 样 (参见 2.4 节 )， 程 序 可 用 
附加 的 代码 进行 调试 。 为 测定 一 个 程序 的 执行 时 间 ， 即 代码 中 两 点 之 间 以 秒 为 单位 的 运行 时 
间 (elapsed time )， 我 们 可 用 常规 的 系统 调用 如 clock()、time()、 或 gettimeofday()。 
因此 ， 为 了 测量 代码 中 点 L1 和 点 L2 之 间 的 执行 时 间 ， 我 们 可 用 如 下 的 代码 结构 : 


Li: time(&t1); /* start timer */ 


L2: time(&t2); /* stop timer */ 


[72 | 
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elapsed time = difftime(t2, t1}; /* elapsed time = t2 - tl */ 

printf ("Elapsed time = %5.2f seconds", elapsed time); 
运行 时 间 将 包括 等 待 消息 的 时 间 ， 并 且 假 设 在 此 时 处 理 机 不 执行 任何 其 他 程序 。 

通常 消息 传递 软件 本 身 含 有 定时 工具 ; 例如 ， 提 供 返 回 时 间 的 库 调 用 或 是 在 时 空 图 中 显 
示 时 间 (如 在 2.4 节 中 所 叙述 的 那样 )。MPI 提 供 例 程 MPI_Wtime() 来 返回 时 间 (以 秒 为 单位 )。 
通常 ， 每 个 处 理 器 将 使 用 自己 所 拥有 的 时 钟 ， 所 以 返回 的 时 间 将 不 一 定 会 与 其 他 处 理 器 的 时 
钟 同步 ， 除 非 可 用 时 钟 间 步 。 在 MPI 中 ， 时 钟 同步 被 定义 为 环境 属性 ， 但 在 一 个 具体 的 系统 
中 它 可 能 不 被 实现 ， 因 为 通常 它 将 导致 很 严重 的 系统 开销 。 

2. 用 乒乓 法 测量 通信 时间 

一 个 指定 系统 的 点 对 点 通信 的 时 间 可 用 如 下 的 乒乓 方法 加 以 测定 。 由 进程 Po 向 另 一 进程 
PP 发 送 消 息 ， 而 Pi 收 到 消息 后 立即 将 该 消息 发 回 给 Po。。 而 消息 通信 所 需 时 间 则 在 Po 加 以 记录 。 
将 该 时 间 用 2 除 后 就 可 测定 单程 通信 所 需 时 间 

进程 Po - 


Lil: timel(&tl); 
send (&x, P1); 
recv (&x, P1); 
L2: time(&t2); 
elapsed time = 0.5 * difftime(t2, t1); 
printf ("Elapsed time = %5.2f seconds", elapsed time); 


进程 PP 


recv (&x, Po); 
send(&x, Po);- 


习题 2-5 探 讨 了 如 何 测 量 通 信和 有 时间。 

3. 特性 形象 

程序 特性 形象 是 一 个 用 来 指示 程序 中 的 不 
同 部 分 在 执行 时 所 花 时 间 的 直方 图 。 特 性 形象 
能 图 示 特 定 源 程 序 语句 的 执行 次 数 ， 如 图 2-18 
所 未 。 实 际 生成 结果 的 特性 形象 器 由 于 必须 在 
程序 执行 过 程 中 捕捉 信息 ， 因 此 会 影响 执行 时 
间 。 对 每 条 指令 的 出 现 次 数 进行 统计 显得 过 度 ， 
故常 采用 对 执行 代码 进行 间隔 性 的 检测 或 采样 
以 给 出 统计 结果 。 任 何 形 式 的 探测 都 将 影响 执 
行 特征 。 在 并 发 进程 之 间 存 在 相互 联系 的 并 行 1 2 3 4 5 6 7 8 9 10 
程序 中 这 一 点 显得 尤为 重要 。 语句 数 或 程序 区 

特征 形象 可 用 来 标识 程序 中 的 “热点 ”， 图 2-18 程序 的 特征 形象 


重复 次 数 或 时 间 
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在 程序 执行 过 程 中 这 些 “热点 ”将 被 多 次 访问 。 应 该 首先 对 这 些 地方 加 以 优化 ,无 论 是 顺序 
还 是 并 行程 序 都 可 以 使 用 这 一 方法 。 


2.4.5 对 优化 并 行 代码 的 评注 


一 旦 对 性 能 进行 测试 后 ， 为 了 改善 性 能 很 可 能 需要 对 程序 进行 结构 上 的 改变 。 除 了 那些 
适用 于 常规 单 处 理 器 程序 的 优化 方法 (如 将 常数 计算 移 到 循环 之 外 ) 以 外 ， 还 可 使 用 一 些 并 
行 优化 的 方法 。 这 些 方 法 通常 与 多 处 理 机 系统 的 体系 结构 有 关 。 可 以 改变 进程 数 从 而 使 进程 
的 颗粒 度 得 以 改变 。 还 可 设法 增加 消息 中 的 数据 量 以 减 小 启动 时 间 的 影响 。 此 外 可 在 本 地 对 
一 些 所 需 的 值 重新 计算 ,通常 总 是 比 将 计算 所 得 的 值 作为 附加 消息 从 一 个 进程 发 送 到 需要 这 
些 值 的 其 他 进程 要 好 得 多 。 对 通信 和 计算 还 可 进行 重合 操作 (时 延 隐藏 ， 参 见 2.3.1 节 )。 还 可 
以 对 程序 进行 关键 路 径 分 析 (critical path analysis) ; 也 就 是 说 要 确定 程序 中 的 各 种 并 发 部 分 ， 
并 找 出 对 整个 执行 时 间 起 支配 作用 的 最 长 路 径 。 

与 以 上 所 提 及 的 因素 相 比 ， 存 储 器 层次 结构 的 影响 是 一 个 不 很 明显 的 因素 。 处 理 器 一 般 
使 用 高 速 缓冲 存储 器 ， 处 理 器 总 是 先 访问 它 的 高 速 缓 在 ， 仅 当 所 需 信 息 不 在 高 速 缓存 中 时 它 
访问 主 存储 器 。 此 后 就 将 从 主 存储 器 得 到 的 信息 装载 到 高 速 缓存 中 ， 但 在 高 速 缓存 中 能 保存 
的 数据 量 是 有 一 定 限制 的 。 显 然 在 需要 的 时 候 数据 尽 可 能 多 地 存放 在 高 速 缓存 中 就 会 导致 最 
好 的 性 能 。 为 达到 这 一 目的 ， 有 时 可 用 特定 的 并 行 化 策略 ， 而 有 时 仅 需 在 程序 中 简单 地 重 排 
对 存储 器 请 求 的 顺序 。 在 第 11 章 中 将 叙述 某 些 数值 算法 ， 简 单 地 以 不 同 的 顺序 来 完成 算术 操 
作 序 列 ， 就 可 使 后 续 引 用 的 数据 大 多 数 在 高 速 缓存 中 得 到 。 


2.5 小 结 


本 章 介绍 了 以 下 概念 : 

* 基本 的 消息 传递 技术 

“ 发送、 接收 和 集合 操作 

* 控制 工作 站 网 络 的 软件 工具 
* 通信 的 建 模 

* 通信 时 延 和 时 延 隐藏 

“并 行 算法 的 时 间 复 杂 性 

“ 并行 程序 的 调试 和 评估 


推荐 读物 


总 的 来 讲 ， 我 们 主要 关注 消息 传递 例 程 ， 特 别 是 MPI 系 统 。 另 一 个 广泛 使 用 的 系统 是 
PVM (并 行 虚 拟 机 ，Parallel Virtual Machine)。 有 关 PVM 的 最 早期 的 一 篇 论文 是 [Sunderam， 
1990]。 有 关 PVM 的 更 多 详尽 资料 可 参见 [Geist et al.，1994a 和 1994b]。 有 关 MPI 的 进一步 资料 
可 在 {Gropp，Lusk and Skjellum，1999] 和 [Snir et al.，1998] 中 找到 。 有 关 MPI-2 的 内 容 可 在 
[Gropp et al.，1998] 和 [Gropp，Lusk and Thakur，1999] 的 文献 中 见 到 。MPI 论 坛 的 主页 
http://www.mpi.-forum.org 提供 了 有 关 MPI 的 许多 官方 文档 和 信息 。 其 他 的 参考 文献 来 源 包括 
[Dongarra et al.，1996]， 该 论文 除了 PVM 之 外 ， 给 出 了 较 早 期 的 几 个 消息 传递 系统 的 有 关 参 
考 文献 。 在 [Sterling，2002a and b] 的 许多 章 中 描述 了 PVM 和 MPI 的 程序 设计 。 有 关 消 息 分 散 
和 集中 的 论文 包括 [Bhatt et al.，1993]。 


在 经 典 教科 书 [Knuth，1973] 中 可 找到 有 关 顺 序 算法 的 基本 设计 和 分 析 。 其 他 的 教科 书包 [335] 
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括 [Aho，Hopcroft ，and Ullman，1974] ， 此 后 又 有 许多 其 他 的 教科 书 问世 。{Cormen， 
Leiserson and Rivest，1990] 是 一 本 论 及 该 主题 的 现代 综合 性 的 教科 书 之 佳作 ， 该 书 篇 幅 超过 
了 1000 页 。 有 关 并 行 算法 设计 和 分 析 可 从 几 本 教科 书 中 找到 ， 其 中 包括 [Akl，1989] 和 [J 676 ， 
1992]。[Berman and Paul ，1997] 是 一 本 较 有 特色 的 书籍 ， 它 将 顺序 和 并 行 算法 集成 为 一 体 。 

在 [McDowell and Helmbold，1989] 以 及 [Simmons et al.，1996] 中 可 看 到 有 关 并 行 调试 的 
细节 。 其 他 的 论文 包括 [Kraemer and Stasko，1993] 以 及 [Sistare et al.,1994]。 《lIEEE 
Computer》 为 并 行 和 分 布 式 处 理工 具 出 了 一 期 特刊 (1995 年 11 月 )， 其 中 包括 了 许多 篇 有 关 并 
行 系统 性 能 评估 工具 的 很 有 价值 的 文章 。 
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习题 


2-1 


2-2 


试 为 消息 通信 和 时间 tcomm 书 写 一 个 方程 式 ， 它 应 能 反映 出 如 在 静态 互联 网 络 中 那样 的 经 过 
多 级 链 路 所 产生 的 延迟 。 为 网 格 网 络 书 写 方程 式 ， 假 定 所 有 的 消息 目的 地 是 随机 选择 
的 。 

利用 值 作为 传递 参数 可 避免 在 书 中 及 MPI 中 的 发 送 和 接受 中 所 使 用 的 指针 。 例 如 ， 在 接 
收 例 程 中 使 例 程 返回 消息 数据 ， 然 后 将 其 赋值 到 一 个 变量 ， 即 x= zecv (sourceID)， 
就 可 消除 指针 。“ 环 绕 ” 正 规 的 MPI 发 送 和 接收 例 程 编写 不 使 用 指针 的 新 例 程 并 演示 它们 
的 使 用 。 

从 一 个 指定 的 源 进 程 向 一 个 指定 的 目的 进程 发 送 一 个 消息 时 ， 源 进程 必须 知道 日 的 的 
TID (任务 识别 符 ) 或 序号 ， 而 目的 需 知道 源 的 TID 或 序号 。 举 一 个 程序 例子 解释 在 MPI 
中 每 个 进程 如 何 能 获得 其 他 进程 的 TID 或 序号 。 

(适合 作为 第 1 个 家 庭 作业 ) 编译 和 运行 实现 将 数 相 加 的 MPI 程 序 ， 如 图 2-14 和 图 2-16 所 示 的 
那样 (或 作为 编译 指令 中 的 “实例 程序 ”"”， 在 网 址 http: /www.cs.uncc.edu/par_prog 上 找到 )， 
并 在 你 的 系统 上 加 以 执行 。 修 改 此 程序 以 实现 查找 最 大 数 并 与 累加 和 一 起 输出 。 

在 并 行程 序 设 计 系统 中 用 如 下 的 代码 段 来 测量 发 送 消 息 的 时 间 。 

主 进程 


Li; time(&t1); 


Send (&x, Pelave); 


L2: time(&t2); 


tmaster = difftime(t2, t1); 

recv (&tslave, Pelave}’; 
printf{"Master Time = %d", tmaster); 
printf ("Slave Time = %d", tslave); 
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2-6 
2-7 
2-8 


2-9 


第 一 部 分 类 太 扶 大 


从 进程 


L1: timel(&t1); 
recV(&X， Puaskter) ; 

L2: time(&t2); 
tslave = difftime{(t2, t1); 
send (gtslave, Pnaster); 


这 是 对 2.4.4 节 所 述 的 乒乓 方法 的 重复 。 以 发 送 多 个 消息 的 组 和 发 送 大 小 不 同 的 消息 
进行 实验 ， 来 获得 消息 传送 所 需 时 间 的 精确 评估 ， 在 发 送 一 个 消息 所 需 时 间 相 对 于 消息 
大 小 的 坐标 空间 中 ， 将 实验 所 得 结果 画 成 一 条 直线 。 估 算 它 的 启动 时 间 fsarue (时 延 )， 
以 及 发 送 一 个 数据 项 所 需 时 间 raaw。 

对 广播 以 及 在 你 的 系统 中 所 具有 的 其 他 集合 例 程 ， 重 做 习题 2-5。 

使 用 单个 的 发 送 和 接收 例 程 经 验 性 地 比较 广播 和 集中 例 程 的 用 法 。 

在 你 的 系统 上 对 时 延 隐藏 进行 实验 ， 以 确定 在 发 送 消息 间 隔 中 能 进行 多 少 计算 。 要 求 使 
用 非 阻塞 和 本 地 阻塞 发 送 例 程 两 者 进行 推算 。 

试 为 在 2.3.4 节 中 所 叙述 的 二 叉 树 广播 的 通信 时 间 和 时 间 复 杂 性 书写 一 个 方程 式 ， 这 里 假 
定 在 每 一 级 上 的 消息 并 不 同时 出 现 ( 如同 实际 中 发 生 的 那样 )。 再 将 其 扩展 为 一 个 m 叉 树 
的 广播 (每 个 结 点 有 m 个 目的 )。 


2-10 如 有 果 PVM 和 MPI 两 者 都 可 供 你 使 用 (或 任意 两 个 系统 )， 试 用 传递 消息 方法 ， 对 两 个 进 


程 在 该 系统 上 进行 通信 所 需 时 间作 比较 性 的 研究 ， 在 这 些 进程 中 已 提供 测量 通信 时 间 
的 手段 。 





第 3 章 易 并 行 计算 


在 本 章 中 ， 我 们 将 从 并 行 计 算 观 点 来 考虑 “理想 ”的 计算 一 一 一 种 能 分 解 成 许多 完全 独立 
部 分 且 每 一 部 分 可 用 一 个 独立 的 处 理 器 执行 的 计算 。 这 就 是 所 谓 的 易 并 行 计算 
(embarrassingly parallel computation ) 。 在 讨论 不 能 将 计算 简单 地 分 解 的 其 他 各 章 之 前 ， 我 们 
将 先 着 手 讨论 易 并 行 计算 的 实例 。 本 章 的 内 容 可 作为 编写 第 一 个 并 行程 序 的 基础 。 


3.1 理想 的 并 行 计算 


并 行程 序 设 计 包 括 将 一 个 问题 分 解 成 若干 部 分 ， 然 后 由 各 个 处 理 器 对 各 个 部 分 分 别 进行 
计算 。 一 个 理想 的 并 行 计 算是 能 被 立即 分 解 成 许多 完全 独立 部 分 且 它 们 能 同时 执行 的 计算 。 
形象 化 地 称 其 为 易 并 行 〈 该 术语 由 Geoffrey Fox 提 出 ， 参 见 [Wilson，1995])， 也 许 更 贴切 地 应 
称 其 为 自然 并 行 (naturally parallel)。 对 这 种 问题 进行 并 行 化 应 是 一 目 了 然 的 ， 且 无 需 特殊 技 
术 或 算法 就 可 得 到 一 个 成 功 解 。 一 个 理想 的 易 并 行 计算 在 各 个 进程 间 没 有 通信 ， 即 它 是 一 个 
完全 独立 的 计算 图 ， 如 图 3-1 所 示 。 每 个 进程 需要 不 同 (或 相同 ) 数据 ， 并 由 其 输入 数据 产生 
最 终 的 结果 ， 而 不 需要 使 用 其 他 进程 生成 的 结果 。 如 果 在 整个 计算 期 间 ， 所 有 可 用 处 理 器 均 
被 分 配 有 进程 ， 此 时 就 可 获得 最 大 的 加 速 比 。 这 里 所 需 的 唯一 结构 ， 是 对 数据 进行 简单 地 分 
配 并 启动 各 进程 。 有 趣 的 是 有 大 量 著名 的 实际 应 用 是 属 易 并 行 的 ， 或 至 少 是 接近 于 易 并 行 的 。 
如 图 3-1 所 示 ， 通 常 由 于 各 个 独立 部 分 为 相同 计算 ， 因 此 称 其 为 SPMD( 单 程序 多 数据 ) 模型 更 
为 合适 。 由 于 数据 不 是 共享 的 ， 因 此 使 用 分 布 式 存储 器 多 处 理 机 或 消息 传递 多 计算 机 就 更 为 
合适 。 如 果 它 们 需要 同一 数据 ， 则 该 数据 必须 拷贝 到 每 个 进程 中 去 。 重 要 的 特点 是 进程 间 没 
有 交互 。 

在 一 个 实际 的 易 并 行 计 算 中 需 将 数据 分 布 到 各 个 进程 ， 并 用 某 种 方式 收集 和 组 合 结果 。 这 
就 意味 着 在 开始 和 最 后 ， 只 有 一 个 进程 处 于 运行 状态 。 如 果 要 创建 动态 进程 ， 通 常 的 方法 是 采 
用 主 从 结构 。 首 先 创建 一 个 主 进 程 ， 由 它 派生 (启动) 相同 的 从 进程 。 图 3-2 示 出 了 这 种 最 终 的 
结构 【( 主 进程 在 派生 从 进程 后 可 继续 自己 的 计算 ， 虽然 在 结果 一 到 达 就 需要 主 进程 时 通常 不 这 
样 安 排 )。 如 2.2.3 节 中 所 提 及 的 那样 ， 主 从 方法 可 以 用 作 静 态 的 进程 创建 。 其 中 ， 我 们 只 需 简 单 
地 将 主 进程 和 从 进程 都 放 在 同一 程序 中 ， 而 使 用 IF 语 名 根据 进程 标识 符 ID ( 主 ID 或 从 ID) 来 选 
择 主 代码 或 从 代码 。 在 后 面 给 出 的 伪 代 码 序列 中 ， 有 关 主 、 从 进程 启动 的 实际 细节 已 省 略 。 

在 本 章 中 我 们 将 考虑 从 进程 之 间 有 交互 最 少 的 应 用 。 即 使 从 进程 全 都 一 样 ， 静 态 地 将 进 





输入 数据 spawn () 发 送 初始 数据 


send{) 


OOO 0 7 


图 3-1 独立 的 计算 图 ( 易 并 行 问题 ) 图 3-2 使 用 动态 进程 创建 和 主 从 方法 的 实际 易 并 行 计算 图 


recv() 


sengd() 
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程 分 配给 处 理 器 仍 可 能 得 不 到 优化 解 ， 处 理 器 不 相同 时 就 更 为 如 此 ， 而 在 联网 工作 站 中 这 种 
情况 是 很 平常 的 ， 使 用 负载 平衡 技术 就 可 提供 改进 的 执行 速度 。 在 这 一 章 内 我 们 将 介绍 负载 
平衡 ， 但 仅 限 于 在 从 进程 间 无 交互 的 情况 。 当 进程 之 间 有 交互 时 ， 负 载 平 衡 就 需要 使 用 明显 
不 同 的 方法 ， 这 将 在 第 7 章 中 论 及 。 


3.2 易 并 行 计算 举例 
3.2.1 图 像 的 几何 转换 


常 将 图 像 存 于 计算 机 中 以 便 可 用 某 种 方法 对 图 像 加 以 改变 。 显 示 的 图 像 常 源 于 两 种 方法 ， 
一 种 是 从 如 摄像 机 那样 的 外 部 源 得 到 ， 这 种 图 像 可 能 需要 以 某 种 方法 (图像 处 理 ) 对 它 加 以 
改变 ; 另 一 种 方法 是 采用 人 工 创 建 ， 该 方法 通常 与 术语 计算 机 图 形 学 有 关 。 不 论 是 哪 一 种 方 
法 ， 都 可 在 已 存储 的 图 像 上 进行 许多 图 形 操作 。 例 如 ， 我 们 可 能 想 要 将 图 像 移 动 到 显示 空间 
的 另 一 个 位 置 、 对 图 像 大 小 进行 缩小 或 放大 或 是 在 二 维 或 三 维 空间 中 对 它 进 行 旋 转 。 必 须 高 
速 地 完成 这 些 图 形 转换 以 使 观察 者 可 以 接受 。 通 常 还 需要 进行 其 他 的 图 像 处 理 操 作 ， 如 平滑 
和 边缘 检测 ， 特 别 对 于 源 自 外 部 的 图 像 ， 因 为 它 很 可 能 是 “有 噪声 的 ”。 这 些 操作 通常 是 易 并 
行 的 。 在 第 11 章 中 将 讨论 这 些 图 像 处 理 的 操作 。 这 里 我 们 将 只 考虑 简单 的 图 形 转换 。 

存储 一 个 二 维 图 像 的 最 基本 的 方法 是 使 用 像素 图 (Pixmap )， 其 中 的 每 个 像素 (pixel 或 
picture element) 是 以 二 进 制 数 的 形式 存放 在 一 个 二 维 数组 中 。 对 于 纯 黑白 图 像 ， 每 个 像素 用 
一 位 二 进 制 位 就 够 了 ， 像 素 为 白色 就 用 1 表示 ， 为 黑色 就 用 0 表示 ， 这 就 是 所 谓 的 位 图 
(bitmap )。 友 度 图 像 就 需 使 用 多 位 来 表示 ， 通 常用 8 位 来 表示 256 种 不 同 的 单 色 亮度 。 至 于 彩 
色 就 需要 用 更 多 位 来 加 以 说 明 。 通 常 在 显示 器 中 使 用 的 三 种 基本 颜色 是 红 、 绿 和 蓝 (RGB )， 
每 种 颜色 各 以 8 位 数 分 别 加 以 存储 。 这 样 每 个 像素 需 用 三 个 字 节 表 示 ， 每 个 字 节 分 别 表示 红 、 
绿 和 蓝 色 ， 总 共 为 24 位 。 使 用 这 种 表示 的 标准 图 像 文件 格式 称 为 “tiff” 格 式 。 

可 以 使 用 查找 表 来 减少 彩色 图 像 对 存储 器 的 需求 ， 在 该 查找 表 中 保存 的 仅 是 图 像 中 要 用 
到 的 指定 颜色 的 RGB 表示 。 例 如 ， 假 定 只 出 现 256 种 不 同 颜色 ， 那 么 具有 256 项 上 且 每 项 长 为 24 
位 的 一 张 表 就 可 保存 所 要 用 到 的 颜色 的 表示 。 那 么 图 像 中 的 每 个 像素 只 需 用 8 位 地 址 码 就 可 从 
查找 表 中 选 出 所 指定 的 颜色 。 该 方法 可 用 于 外 部 图 像 文件 中 ， 此 时 该 查找 表 与 图 像 一 起 存放 
在 文件 中 ， 例 如 “gif” 文 件 格式 。 该 方法 也 可 用 于 内 部 生成 的 图 像 以 减 小 视频 存储 器 的 容量 
(可 降 到 仅 为 原来 的 1/3 )。 尽 管 随 着 视频 存储 器 越 来 越 便宜 ， 该 法 已 不 如 以 前 那样 吸引 人 。 在 
这 一 节 中 ， 我 们 假设 所 讨论 的 图 像 是 一 种 简单 的 灰 度 图 像 (彩色 图 像 可 归 约 成 灰 度 图 像 ， 图 
像 处 理 常 这 样 做 ， 参 见 第 11 章 )。 经 常 不 严格 地 使 用 术语 位 图 (bitmap ) 和 位 映射 (bit- 
mapped) 表示 用 二 进 制 形 式 存储 的 图 像 ， 尤 如 一 个 像素 阵列 。 

当 要 将 像素 位 置 移 动 而 又 不 影响 其 值 时 ， 就 需 对 每 个 像素 的 坐标 进行 数学 运算 以 实现 几 
何 变换 。 由 于 对 每 个 像素 的 变换 是 完全 独立 于 其 他 像素 变换 的 ， 因 而 这 确 是 一 个 易 并 行 计 算 。 
变换 的 结果 很 简单 地 是 一 张 已 更 新 的 位 图 。 下 面 给 出 一 些 常见 的 几何 变换 的 示例 [Wilkinson 
and Horrocks ，1987]: 

GD 平移 

在 x 方向 移动 Ax、 在 y 方 向 移动 Ay 后 的 一 个 二 维 对 象 的 坐标 由 下 式 给 出 : 

X=X+Ax 
y =y+Ay 
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式 中 x 和 y 为 原 坐 标 ，x’ 和 y' 为 新 坐标 。 


句 缩放 

在 x 方 向 以 系数 $: 缩 放 ， 而 在 ?方向 以 $, 缩放 的 对 象 的 坐标 由 下 式 给 出 : 
X = XS 
y'=ySy 


当 S: 和 Sy 大 于 1 时 ， 对 象 被 放大 ; 而 当 $: 和 5; 在 0 和 1 之 间 时 ， 对 象 就 被 缩小 。 注 意 ， 在 x 和 y 方 
向 上 的 放大 和 缩小 比例 不 必 相 同 。 

回旋 转 

绕 坐 标 系 原点 旋转 @ 角 后 的 对 象 的 坐标 由 下 式 给 出 : 

X =xXcos9+ ySing 
yy’ =—Xsin0 + ycos6 

名 裁剪 

该 变换 将 已 定义 的 矩形 边界 应 用 到 一 个 图 形 上 ， 并 从 显示 图 中 将 那些 落 在 定义 区 域 之 外 
的 所 有 点 删除 掉 。 在 经 旋转 、 移 位 和 缩放 后 ， 用 裁剪 来 消除 落 在 显示 范围 之 外 的 坐标 是 很 有 
用 的 。 如 果 被 显示 区 域 的 最 低 的 x 和 y 的 值 为 x、y!， 而 最 高 的 x 和 y 的 值 为 、xs，ys、 那 么 

X11 SX CXh 
yy yn 

对 于 要 显示 的 点 (x’，y) 应 该 为 真 ; 否则 点 (x'，y') 将 不 被 显示 。 

输入 数据 是 位 图 ， 通 常 存 于 文件 中 并 被 复制 到 数组 中 。 该 数组 的 内 容 可 很 容易 地 进行 处 
理 而 无 需 任何 特殊 的 编程 技术 。 并 行程 序 设 计 主 要 关心 的 是 将 位 图 分 成 一 些 像素 组 以 供 每 个 
处 理 器 加 工 ， 这 是 因为 一 般 来 讲 像素 数 会 远大 于 进程 /处 理 器 数 。 有 两 种 一 般 的 编组 方法 : 以 
正方 形 /矩形 区 域 编组 和 以 列 / 行 编组 。 我 们 可 简单 地 将 一 个 进程 (或 处 理 器 ) 分 配 到 一 个 显示 
区 域 。 例 如 ， 对 一 个 640 x 480 图 像 和 48 个 进程 ， 我 们 可 将 显示 区 划 成 48 个 80.x 80 和 矩形 区 ， 并 
为 每 个 80 x 80 和 矩形 区 分 配 一 个 进程 。 或 者 我 们 可 将 显示 区 划分 成 48 行 640 x 10 像 素 分 配给 每 个 
进程 。 将 一 个 区 域 分 成 按 行 或 按 列 的 矩形 /正方 形 区 域 的 概念 (如 图 3-3 所 示 )， 在 含有 处 理 二 
维 信 息 的 许多 应 用 中 都 有 所 体现 。 在 第 6 章 中 我 们 将 讨论 如 何在 将 一 个 区 域 划 分 成 正方 块 或 行 
( 列 ) 之 间 进 行 折 囊 。 对 于 像 这 里 所 讨论 的 那样 相 邻 区 域 间 不 存在 通信 的 情况 ， 除 了 可 能 易于 
编程 外 ， 采 用 哪 种 分 割 方法 是 无 关 紧 要 的 。 



























































> 、 进程 
y 640 辣 
| () 
gol pe 
480 
| 
a) 每 个 进程 的 正方 形 区 域 b) 每 个 进程 的 行 区 域 


图 3-3 为 各 个 进程 划分 区 域 
假设 我 们 使 用 一 个 主 进 程 和 48 个 从 进程 ， 并 以 10 行 一 组 进行 分 割 。 则 每 个 从 进程 将 处 理 


62 一 训 分 基 木 捞 枯 


一 个 640 x 10 区 域 ， 并 向 主 进程 返回 新 的 坐标 值 以 供 显示 。 如 果 所 进行 的 变换 是 平移 ， 如 前 面 
pe 划 主 从 方法 可 能 以 主 进程 向 每 个 从 进程 发 送 需 由 每 个 进程 处 理 的 前 10 
行 中 的 第 1 行 的 行 号 开始 。 一 旦 接收 到 它 的 行 号 ， 每 个 进程 逐步 通过 其 行 组 中 的 每 一 个 像素 坐 
针 转 换 其 地 标 ， 并 将 旧作 村 新 从 村 加 给 宇 过 本 为 简 间 起 也 可 用 各 个 消 思 而 不 是 
消息 进行 这 种 传送 。 然 后 由 主 进程 更 新 位 图 。 
假定 原先 的 位 图 保存 在 数组 map[ [ ] ， 并 声明 一 个 临时 位 图 temp_map[ ][ ] 。 通 常 显示 
坐标 系统 的 原点 在 左上 角 ， 如 图 3-3 所 示 。 将 原点 在 左下 角 的 图 像 转换 到 显示 坐标 系统 是 很 简 
[83] 单 的。 为 此 我 们 将 省 略 这 些 细节 。 应 注意 的 是 ， 在 C 语 言 中 ， 元 素 是 以 第 一 个 下 标 为 行 、 第 二 
个 下 标 为 列 的 形式 逐 行 存放 的 。 完 成 图 像 平 移 的 伪 代 码 如 下 : 


主 进程 : 

for {i = 0, row = 0; i < 48; i++, IOw = row + 10) /* for each process*/ 
send (row, Pi); /* send row no.*/ 

for (i = 0; i < 480; I++) /* initialize temp */ 


for (jj = 0; jj < 640; j++) 
temp. map[li] [ij]} = 0; 


for (i = 0; i < (640 * 480}); i++) { /* for each pixel */ 
recv (olQrow, oldcol ,newrow, newcol, Pany); /* accept new coords */ 
if !{(newrow < 0)|| (newrow >= 480)|| (newcol < 0)|| (newcol >= 640)) 


temp_map [newrow] fnewcol] =map [oldrowl [oldcoll; 
} 
for ( = 0; i < 480; i++) /* update bitmap */ 
for (j = 0; j < 640; j++) 
maplil[jil = tenp_map[il[jl; 


从 进程 : 

recv (row, Phnaster); 

for {oldrow = row; oldrow < {row + 10); oldrow++) 
for (oldcol = 0; oldcol < 640; oldcol++) { /* transform coords */ 

/* shift in x direction */ 

/* shift in y direction */ 
/* coords to master */ 


/* receive row no. */ 


newrow = oldrow + delta x; 
newcol = oldcol + delta_y:; 
send (oldrow, oldcol, newrow, newcol, Pmaster); 


} 


在 主 进程 接收 部 分 ， 使 用 了 一 个 通配符 Pany 说 明 可 以 以 任何 次 序 接收 来 自任 何 从 进程 的 数 
据 。 被 平移 的 图 像 可 能 超过 显示 区 域 的 边界 ， 为 此 需 将 不 出 现在 显示 区 中 的 新 图 像 的 任 一 部 
分 的 位 图 置 为 0 (黑色 )。 

在 该 例 中 ， 由 主 进程 将 各 起 始 行 号 发 送 给 各 个 从 进程 。 但 由 于 起 始 号 与 进程 ID 有 关 ， 因 
而 每 个 从 进程 可 自己 确定 起 始 行 。 此 外 ， 由 于 每 次 只 返回 一 个 结果 而 不 是 一 组 结果 ， 从 而 就 
无 法 像 成 组 返回 结果 那样 可 减少 传送 消息 的 开销 时 间 。 程 序 中 没有 代码 指明 从 进程 的 终止 ， 
因此 只 有 当 所 有 结果 都 生成 后 才 会 终止 ， 否 则 主 进 程 将 永远 等 待 下 法 。 程 序 中 的 从 进程 在 完 
成 自己 的 国定 任务 数 之 后 可 自行 终止 ; 在 其 他 情况 下 ， 也 可 由 主 进 程 向 所 有 从 进程 发 送 一 
个 消息 来 做 到 这 一 点 。 上 述 的 代码 并 非 是 完善 的 ， 为 了 便于 讨论 ， 显 示 区 域 的 大 小 、 每 个 

而 进程 处 理 的 行 数 以 及 进程 数 均 被 固定 地 编码 。 要 使 上 述 代码 具有 通用 性 ， 这 些 系数 应 该 易 
于 改变 。 
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分 析 

假设 每 个 像素 需要 两 个 计算 步 且 总 共有 nn x n 个 像素 ， 如 果 变换 是 顺序 进行 的 ， 则 变换 共 
需 n x n 步 ， 因 此 有 : 

二 = 212 

故 顺 序 时 间 复 杂 性 为 O (zz )。 

并 行 的 时 间 复 杂 性 由 通信 和 计算 两 部 分 组 成 ， 所 有 的 消息 传递 并 行 计算 实际 上 都 是 由 这 
两 部 分 组 成 的 。 在 本 书 中 ， 我 们 将 分 开 处 理 通 信和 计算 ， 然 后 再 将 每 一 部 分 合 在 一 起 以 形成 
总 的 并 行 时 间 复 杂 性 。 

(1) 通信 ”回顾 一 下 在 2.3.2 节 中 所 给 出 的 有 关 通 信 分 析 的 基础 ， 我 们 假设 处 理 器 间 是 直 
接连 接 的 ， 且 从 以 下 公式 开始 分 析 : 

fcomm = fstartup + Ifdata 

其 中 twarwp 是 形成 消息 和 启动 传递 所 需 的 (固定 ) 时 间 ，taaw 是 发 送 一 个 数据 项 所 需 的 (固定 ) 
时 间 ， 而 m 是 数据 项 数 。 由 tcomm 给 定 的 通信 时 间 的 并 行 时 间 复 杂 性 为 OGm)。 但 在 实际 中 ， 我 们 
通常 不 能 忽略 通信 的 启动 时 间 iiwrwp， 因 为 启动 时 间 是 一 个 较 大 的 值 ， 除 非 m 特 别 大 。 

设 进程 数 为 p。 在 计算 前 ， 必 须 向 每 个 进程 发 送 开 始 行 号 。 在 前 面 的 伪 代 码 中 ， 我 们 顺序 
地 发 送行 号 ， 即 p 个 send( ) ， 每 次 有 一 个 数据 项 。 各 个 进程 必须 将 自己 的 像素 组 经 变换 后 的 
坐标 送 回 给 主 进程 ， 这 里 用 各 个 send( ) 来 表示 。 要 送 回 主 进程 的 数据 项 为 4 个， 主 进程 将 
顺序 地 接收 它们 。 因 此 通信 时 间 为 : 

tcomm 三 万 (lstanwp + 1aaa) + 12 (fanmp + 4taaa ) = O(p + 2) 

(2) 计算 ”并 行 实现 (用 行 或 列 组 或 是 正方 /矩形 区 域 ) 将 图 像 分 成 若干 组 ， 每 组 有 n/p 

个 像素 。 每 个 像素 需要 两 次 加 法 (参见 上 述 伪 代 码 的 从 进程 ) 。 因 此 并 行 计算 时 间 由 下 式 给 定 : 
Lp = 号 | = O(n?/p) 
(3) 总 的 执行 时 间 总 的 执行 时 间 由 下 式 给 定 : 
ty = feomp + feomm 


对 于 固定 的 处 理 器 数 ， 时 间 复 杂 性 为 O(n? )。 
(4) 加 速 比 系数 ”加速 比 系数 为 : 


加 速 比 系数 = 三 = 一 2 
? ?和 | + plianwp + fo ) + 1? (toomwp + tam) 
(5) 计算 /通信 比 如 在 第 1 章 中 所 述 ， 计 算 时 间 和 通信 时 间 的 比 为 : 


,mz pai 计算 时 间 _ toom 
计算 /通信 比 = 通信 时 间 = 本 


从 该 式 可 看 到 通信 开销 的 影响 ， 特 别 是 在 增 大 问题 规模 时 。 就 刚才 所 考虑 的 问题 ， 该 比 


2n2 








例 为 





入 让 重信 | 2(02 / p) _ /Pp 

计算 /通信 比 P(tsarup + 214aa ) + 4n’ (tarp + faaa) ol p+ nm ) 
在 处 理 器 数 固定 时 当 问 题 规模 增 大 时 该 比值 为 常数 。 这 不 利于 计算 /通信 比 ! 理想 的 顺序 
算法 时 间 复 杂 性 应 是 最 小 寡 之 一 〈 最 小 增长 ) ; 相反 ,理想 的 计算 /通信 比 应 是 最 大 短 之 一 ， 
因为 增加 问题 规模 会 减少 通信 (通常 是 很 大 的 ) 的 影响 。( 可 以 使 用 通信 /计算 比 ， 且 作为 顺 
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序 时 间 复 杂 性 的 最 期 望 的 比 将 有 最 小 的 寡 。) 

事实 上 在 大 多 数 实际 情况 中 ， 隐 藏 于 通信 部 分 的 常数 远 远 超 出 了 那些 隐藏 于 计算 中 的 常 
数 。 这 里 tcomn 中 的 启动 时 间 为 42 + PP。 该 代码 的 运行 性 能 很 差 。 因 此 减少 要 传送 的 消息 数 就 
显得 非常 重要 。 我 们 可 通过 向 所 有 进程 广播 行 号 集 以 减 小 启动 时 间 的 影响 ， 此 外 我 们 也 可 成 
组 送 回 结果 。 即 使 如 此 ， 由 于 计算 时 间 是 最 小 的 ， 故 通信 控制 整个 执行 时 间 。 事 实 上 该 应 用 
可 能 最 适用 于 共享 存储 器 多 处 理 机 ， 因 为 此 时 位 图 将 保存 在 共享 存储 器 中 ， 对 所 有 处 理 器 而 
言 它 将 是 立即 可 用 的 。 


3.2.2 曼 德 勃 罗 特 集 


显示 曼 德 勃 罗 特 (Mandelbrot ) 集 是 处 理 位 映射 图 像 的 另 一 个 例子 。 但 现在 必须 对 图 像 进 
行 计 算 ， 且 计算 量 是 很 大 的 。 曼 德 勃 罗 特集 是 复数 平面 中 的 点 集 ， 当 对 一 个 函数 选 代 计 算 时 ， 
这 些 点 将 处 于 拟 稳定 的 状态 (将 增加 或 减 小 ， 但 不 会 超过 某 一 限度 )， 通 常 该 国 数 是 : 
Zk+1=Z2 十 C 
式 中 zx 是 复数 z = a + bi (其 中 i= V-1) 的 第 k + 1 次 迭代 ，z4 是 z 的 第 k 次 迭代 ，c 是 确定 
该 点 在 复 平面 中 位 置 的 复数 。z 的 初 值 为 0。 选 代 将 一 直 进 行 下 去 ， 直 至 z 的 幅 值 大 于 2 ( 它 表 
明 z 最 终 将 变 为 无 穷 大 ) ， 或 是 迭代 次 数 已 达到 某 种 任意 规定 的 限度 。z 的 幅 值 是 向 量 的 长 度 ， 


由 下 式 给 定 : 
Zinen = Va +b 
对 于 复数 函数 zx;1= z+ c 的 计算 可 以 化 简 ， 这 是 因为 
2 =a+2abitbir= a -b+ 2abi 
即 实 部 是 a? -上 P， 而 虚 部 是 2a4b。 因 此 ， 若 用 ziea 表示 z 的 实 部 ， 而 用 zimse 表示 z 的 虚 部 ， 则 下 一 
迭代 值 可 由 以 下 计算 得 到 : 


2 2 
Zreal = Zreal Zimag + Creal 
Zimag = 220a1 Zimag 十 Cimag 
其 中 crea 是 c 的 实 部 9 而 cimag 则 是 c 的 虚 部 。 


1. 顺序 代码 
在 编程 时 可 用 一 个 结构 保存 z 的 实 部 和 虚 部 : 
structure complex { 
float real; 
float imag; 
}; 、 
对 一 点 的 值 进行 计算 并 返回 迭代 次 数 的 例 程 形式 可 能 如 下 : 
int cal _ pixel (complex c) 
{ 
int count, max_iter; 
complex 2z; 
float temp, lengthsq; 
mx iter = 256; 


count = 0; /* number of iterations */ 
do 
temp = z.real * Z.real - z.imag * z.imag + c.real; 
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z.img = 2 * z.real * 2z.imag + c.imag; 
z.real = temp; 
lengthsq = z.real * z.real + Zz.imag * 2.imag; 
Count++; ” 
} while ((lengthsq < 4.0) && (count < max_iter)); 
return count; 


}) 


长 度 的 平方 lengthsq 与 4 相 比 较 ,而 不 是 与 2 比较 ， 这 是 为 了 避免 进行 开 方 运算 。 根 据 
给 定 的 终止 条 件 ， 所 有 的 曼 德 勃 罗 特 点 必 将 是 处 在 以 原点 为 中 心 、 半 径 为 2 的 圆 中 。 

计算 和 显示 这 些 点 的 代码 需要 对 坐标 系统 进行 一 定 缩放 来 与 显示 区 域 的 坐标 系统 相 匹配 。 
实际 的 观看 区 域 通常 是 一 个 任意 大 小 的 矩形 窗口 ， 并 可 放置 到 复 平面 中 任何 感 兴 趣 的 位 置 。 
分 辩 率 可 随意 提高 以 获得 精彩 的 图 像 。 假 设 显示 高 度 为 4hisp_height， 显示 宽度 为 
disp_width，, 而 点 在 显示 区 域 中 的 位 置 是 (x，y)。 如 果 显 示 复 平面 的 窗口 具有 最 小 值 
(real min，imag_min) 和 最 大 值 (real_max，imag_max)， 则 每 个 (x，y) 点 需 用 以 下 
的 系数 加 以 缩放 

c.real = real min + x * (real max - real min)/disp_width; 

c.imag = imag min + y * (imag max - imag_min)/disp_height; 
来 获得 真正 的 复 平面 坐标 。 为 提高 计算 效率 ， 设 


Scale_real (real max - real_min)/disp_width; 


scale_imag (imag_max - imag_min)/disp_ height; 


包括 缩放 的 代码 如 下 : 
for (x = 0; x < disp width; x++) /* screen coordinates x and y */ 

for (y = 0; y < disp height; y++) { 
c.real = real min + ((float) x * scale real); 
c.imag = imag min + ((float) y * scale imag); 
color = cal_pixel (c); 
display (x, y, color); 

} 


其 中 display( ) 是 一 个 精心 编写 的 例 程 用 来 显 
示 经 计算 得 到 的 颜色 的 像素 (x，Y) (如 果 必 
要 的 话 ， 需 考虑 显示 窗口 中 原点 位 置 )。 图 3-4 
中 示 出 了 典型 的 结果 。 用 Xlib 调 用 图 形 学 算法 
生成 曼 德 勃 罗 特 集 的 顺序 程序 版 本 可 从 
http://www.cs.uncc.edu/par_prog 处 获得 ， 并 可 用 
它 作为 简单 并 行程 序 编写 的 基础 (习题 3-7)。 

由 于 曼 德 勃 罗 特 集 的 计算 是 密集 计算 ， 
故 在 并 行 计算 机 系统 (以 及 顺序 计算 机 ) 中 它 
被 广泛 用 来 测试 。 依 赖 于 计算 机 的 速度 和 所 
需 的 图 像 分 辩 率 ， 整 个 图 像 的 计算 将 需 几 分 
钟 的 时 间 。 另 外 它 有 很 有 趣 的 图 形 结果 。 如 
果 想 对 选 定 区 域 加 以 放大 ， 这 只 要 对 该 区 域 
进行 重复 计算 并 且 对 显示 例 程 的 结果 进行 缩 
放 就 可 实现 。 图 3-4 ” 曼 德 勃 罗 特集 








66 ”用 一 部 分 凌 示 和 抽 太 


2. 并 行 化 田 德 勃 罗 特 集 的 计算 

对 消息 传递 系统 而 言 ， 曼 德 勃 罗 特集 特别 便于 并 行 化 ， 因 为 每 个 像素 的 计算 不 需要 其 周 
围 像素 的 任何 信息 。 每 个 像素 本 身 的 计算 倒是 不 易 并 行 化 。 在 前 面 变换 图 像 的 例子 中 ， 我 们 
为 每 个 进程 分 配 了 一 个 固定 的 显示 区 域 ， 这 种 分 配 是 静态 分 配 。 下 面 我 们 将 讨论 当 进程 所 计 
算 的 区 域 发 生变 化 时 的 静态 分 配 和 动态 分 配 。 

3. 静态 任务 分 配 

如 图 3-3 所 示 ， 用 正方 /矩形 区 域 或 用 列 /行进 行 编组 是 很 合适 的 。 在 给 定 了 要 计算 的 像素 
坐标 后 ， 每 个 进程 需 执行 过 程 cal_pPixel()。 假 定 显 示 区 域 为 640 x 480， 而 在 一 个 进程 中 
要 计算 10 行 (即将 10 x 640 像 素 编 为 一 组 ， 共 48 个 进程 )。 则 其 伪 代 码 形式 可 能 如 下 所 示 : 


Master 


for (i = 0, row = 0; i < 48; i++，Low = row + 10)/* for each process*/ 


send(&row, Pi); /* send row no.*/ 

for (i = 0; i < (480 * 640); i++) { /* from processes, any order */ 
recv(&c, &color, Pany); /* receive coordinates/colors */ 
display(c¢, color); /* Qisplay pixel on Screen */ 


} 
Slave (process i) 


TecV (&row, Pnaster}; /* receive row no. */ 
for (x = 0; x < disp width; x++) /* Screen coordinates x anQ Y */ 
for (ly = row; yY< (row + 10); Y++) { 
c.real = min real + ((float) x * scale real); 
c.imag = min_imag + ((float) y * Scale imag); 
color = cal pixel{(c); 
sendl&c, &color, Praster): /* send coords, color to master */ 


} 


我 们 期 望 发 送 所 有 640 x 480 像 素 ， 但 根据 计算 像素 值 的 迭代 次 数 和 计算 机 的 速度 这 些 像 
素 可 能 以 任何 顺序 出 现 。 这 种 实现 与 3.2.1 节 中 的 变换 有 同样 的 严重 缺点 : 每 次 只 送 回 一 个 而 
不 是 成 组 的 结果 。 成 组 地 发 送 数据 可 减少 通信 和 启动 次 数 (每 发 一 个 消息 需 启动 一 次 )。 先 将 结 
果 保 留 在 数组 中 ， 然 后 以 一 个 消息 将 整个 数组 发 送 给 主 进程 是 很 容易 实现 的 。 应 注意 的 是 ， 
主 进程 将 用 一 个 通配符 以 任何 顺序 接收 来 自从 进程 的 消息 (用 记号 Pasx 指 明 源 通配符 ) 。 

4. 动态 任务 分 配 一 工作 池 / 处 理 器 农庄 

曼 德 勃 罗 特 集 对 每 个 像素 要 进行 大 量 的 迭代 计算 。 一 般 每 个 像素 的 选 代 次 数 均 不 同 。 此 
外 ， 各 台 计 算 机 可 能 是 不 同型 号 或 是 以 不 同 速度 运行 。 因 此 某 些 处 理 器 可 能 先 于 其 他 处 理 器 
完成 所 分 配 的 任务 。 理 想 的 情况 是 ， 我 们 希望 所 有 处 理 器 同时 完成 ， 从 而 可 达到 100% 的 系统 
效率 ， 这 就 是 所 谓 的 负载 平衡 。 在 所 有 的 并 行 计算 中 ， 这 是 一 个 复杂 但 却 非常 重要 的 概念 ， 
而 不 是 仅仅 在 我 们 正在 讨论 的 这 个 问题 中 如 此 。 理 想 的 情况 是 ， 在 整个 计算 期 间 ， 为 每 个 处 
理 器 分 配 足够 的 工作 以 使 其 始终 处 于 忙碌 状态 。 可 为 不 同 的 处 理 器 分 配 不 同 大 小 的 区 域 ， 但 
由 于 以 下 的 两 个 原因 往往 很 难 做 到 这 一 点 : 一 是 我 们 事先 并 不 一 定 知道 每 个 处 理 器 的 计算 速 
度 ; 二 是 因为 我 们 必须 知道 每 个 处 理 器 计算 每 个 像素 所 需 的 准确 时 间 ， 但 后 者 是 依赖 于 选 代 
次 数 的， 而 每 个 像素 所 需 的 迭代 次 数 都 是 不 同 的 。 求 解 有 些 问 题 的 计算 时 间 较 为 一 致 ， 但 不 
管 怎样 ， 一 个 较为 系统 有 效 的 方法 必 将 包含 某 种 形式 的 动态 负载 平衡 。 
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动态 负载 平衡 可 使 用 工作 池 方 法 加 以 实现 ， 在 这 种 方法 中 当 有 处 理 器 处 于 空闲 时 就 向 其 
分 配 工作 。 有 时 用 处 理 器 农庄 〈processor farm) 这 一 术语 来 描述 这 一 方法 ， 特 别 是 当 所 有 处 
理 器 都 是 同一 种 类 型 时 。 工 作 池 中 拥有 所 有 要 完成 的 任务 集 (或 地 )。 在 某 些 工作 字 问 题 中 ， 
进程 能 产生 新 的 任务 ， 我 们 将 在 第 7 章 看 到 它 的 含义 。 

在 我 们 的 问题 中 ， 像 素 集 (或 更 确切 地 是 它们 的 坐标 集 ) 构成 了 任务 。 任 务 数 是 固定 的 ， 
因为 要 计算 的 像素 数 在 计算 开始 前 是 已 知 的 。 各 个 处 理 器 从 工作 池 中 请 求 获得 像素 的 一 对 坐 
标 。 当 一 个 处 理 器 完成 像素 颜色 的 计算 后 ， 它 就 返回 此 颜色 ， 并 从 工作 池 中 请 求 下 一 个 像素 
的 一 对 坐标 。 当 所 有 像素 坐标 均 已 从 工作 池 中 取 走 后 ， 然 后 就 需 等 待 所 有 处 理 器 完成 它们 的 
任务 ， 并 要 求 输入 更 多 的 像素 坐标 。 

逐个 发 送 各 个 像素 的 一 对 坐标 将 造成 过 度 的 通信 。 为 此 一 般 不 将 单个 坐标 作为 任务 ， 而 


是 将 代表 若干 像素 的 一 组 坐标 作为 任 Tr 
务 ， 从 工作 池 中 取出 ， 这 样 就 可 减 小 通 。 
信 开 销 。 在 开始 时 ， 从 进程 被 告知 像素 Gy 


组 的 大 小 (假定 是 为 固定 大 小 )。 然 后 Ca ya) 


Gro, ys) 


只 需 将 组 内 第 一 对 坐标 作为 一 个 任务 发 
送 给 从 进程 即 可 。 此 方法 将 把 通信 开销 
碱 小 到 可 接受 的 程度 。 图 3-5 中 示 出 了 
整个 安排 。 

当 曼 德 勃 罗 特 集 计 算 以 工作 池 解 法 
编码 时 , 我 们 发 现 像素 不 是 一 起 产生 的 。 图 3-5 工作 池 方 法 
某 些 像 素 先 于 其 他 像素 出 现 。( 实 际 上 ， 这 种 情况 在 静态 分 配 编码 时 也 会 出 现 ， 因 为 某 些 像素 
将 比 其 他 像素 需要 更 多 的 计算 时 间 ， 而 且 消息 被 接收 的 次 序 也 不 受 限制 。) 

假定 进程 数 用 num-Proc 表 示 ， 且 进程 每 次 计算 一 行 。 在 这 种 情况 下 ， 工 作 池 将 保持 行 
号 而 不 是 各 个 像素 的 坐标 。 工 作 池 的 编码 形式 可 能 如 下 : 





主 进程 
count = 0; /* counter for termination*/ ' 
row = 0; | /* row being sent */ 
for (k = 0; k < num proc; k++) { /* assuming num proc<disp_height */ 
send(&row, Px, data tag); /* send initial row to process */ 
Count++; /* count rows sent */ 
IOW++; /* next row */ 
} 
do { 
recv (&slave, &r, Color, Pany'. result tag); 
Count-~; /* reduce count as rows received */ 
if (row < Qisp_height) { 
send (&row, Pslave: data_tag); /* send next row */ 
IOW++}; /* next row */ 
Count++; 
} else 
send (&row, Pslave, terminator tag); /* terminate */ 
Gisplay {r, color); /* display row */ 


} while (count > 0); 


从 进程 
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Tecv(yY，Pnaster，RANYTAG，Source_tLag) ; /* receive 1st row to compute */ 
while (source tag == data tag) 1{ 
c.imag = imag min + ((float) y * scale_ imag); 
for (x = 0; x < disp width; x++) { /* compute row colors */ 
c.real = real min + ((float) x * scale. real); 


Color [x] = cal_pixel (c); 
} 
send(&x, &y, Color, Pmaster: result_tag); /* row colors to master */ 
recv(&y, Pnaster, Source_tag); /* receive next row */ 


}; 

在 该 段 代码 中 ， 首 先 让 每 个 从 进程 计算 一 行 ， 此 后 当 它 返回 一 个 结果 后 就 可 得 到 另 一 行 ， 
直到 没有 要 计算 的 行为 止 。 当 所 有 行 均 被 发 送 后 ， 主 进程 就 发 送 一 个 终止 符 消息 。 为 区 别 不 同 
的 消息 就 需 使 用 标记 ， 对 发 送 给 从 进程 的 行 消息 使 用 data_tag， 对 终止 符 消息 使 用 


terminator tag, 对 来 自从 进程 的 计算 结果 从 进程 中 未 完成 的 行 (count) 

使 用 result_tag。 为 此 就 必须 有 一 种 机 制 来 _ 

识别 所 接收 到 的 不 同 标记 。 这 里 我 们 简单 地 以 0 一 人 2 关 一 、 aisp_height 
source_tag 参 数 来 表明 。 应 注意 的 是 ， 在 显 上 厂 一 一 一 一 一 一 一 一 一 一 +] 

示 结 果 之 前 主 进 程 进行 接收 和 发 送 消 息 ， 这 样 ”终止 < 

就 可 使 从 进程 尽快 重新 启动 ， 为 此 使 用 本 地 阻 图 3.6 计数 器 终止 


塞 发 送 。 还 应 注意 的 是 ， 为 了 实现 终止 ， 需 要 
对 从 进程 中 未 完成 的 行 数 进行 计数 (count )， 如 图 3-6 所 示 的 那样 。 当 然 也 可 以 简单 地 计算 返 
回 行 数 。 当 然 ， 还 可 用 其 他 方法 对 该 问题 编码 。 在 第 7 章 中 我 们 将 对 终止 问题 做 进一步 的 阐述 。 

分 析 

对 曼 德 勃 罗 特 计算 的 确切 分 析 是 非常 复杂 的 ， 这 是 因为 每 个 像素 需 进行 多 少 次 迭代 事先 
并 不 知道 。 每 个 像素 的 迭代 次 数 是 c 的 某 一 销 数 ， 但 不 会 超过 max_iter。 因 此 顺序 时 间 为 : 

it, <max iterxn 

或 者 顺序 时 间 复 杂 性 为 O (n)。 

就 并 行 版 本 而 言 ， 我 们 只 考虑 静态 分 配 。 设 处 理 器 的 总 数 为 p， 则 有 P-1 个 从 进程 。 并 行 
程序 基本 上 有 三 个 阶段 : 通信 、 计 算 和 通信 。 

阶段 1: 通信 首先， 向 每 一 个 从 进程 发 送行 号 ， 即 向 p-1 个 从 进程 的 每 一 个 发 送 一 个 数 
据 项 ; 即 

fconml = (Pp—1) (karup + faata ) 

向 每 个 从 进程 发 送 独 立 的 消息 导致 了 重复 的 启动 时 间 。 可 以 使 用 一 个 分 散 例 程 ， 它 将 减 
小 这 一 影响 (习题 3-6)。 

阶段 2: 计算 ”然后 各 个 从 进程 并 行 地 完成 它们 的 曼 德 勃 罗 特 计 算 ; 即 
max_iterxn 
foomp & 一 一 一 一 

p-l 

假设 像素 在 所 有 处 理 器 中 平均 分 配 。 至 少 会 有 某 些 像素 将 需要 最 大 的 迭代 次 数 ， 而 它们 将 在 
整个 时 间 中 占 主要 部 分 。 

阶段 3 : 通信 ”在 最 后 的 阶段 中 ， 结 果 传 送 回 主 进程 ， 一 次 传送 像素 颜色 的 一 行 。 假 设 
每 个 从 进程 处 理 w 行 ， 并 且 每 行 有 vY 个 像素 ， 于 是 : 

f comm2 = WU (f stanup + Vi data ) 


启动 时 间 开 销 的 降低 可 以 通过 将 结果 收集 到 更 少 的 消息 中 来 实现 。 就 静态 分 配 而 言 ，" 的 值 (每 
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行 的 像素 数 ) 和 xz 的 值 ( 行 数 ) 都 是 固定 的 〈 除 非 图 像 的 精度 改变 )。 不 妨 设 konnz =k，k 是 一 个 
常数 。 
总 执行 时 间 ”综合 起 来 ， 并 行 时 间 由 下 式 给 定 : 
max iterxn 
bb & 一 一 一 一 一 +(D-1)(kstarup + faata) 十 大 
p-l 
加 速 系 数 ” 加 速 系 数 如 下 : 


、 _ max iterxn 
加 速 系 数 = 1 max iterxn 


p-l 
加 速 系 数 可 能 接近 p， 如 果 max_iter 足 够 大 。 
计算 /通信 比 ”计算 /通信 比如 下 : 
计算 /通信 比 = (max_iterxn) 
(p -Dp~ Dswnvw + tasa) + k) 
= O(n)， 当 处 理 器 数 固定 时 
前 面 的 分 析 仅 是 为 了 说 明 是 否 值得 进行 并 行 化 ， 看 来 结论 是 肯定 的 。 


3.2.3 壹 特 卡 罗 法 


蒙特 卡 罗 法 (Monte Carlo method) 的 基本 思想 是 在 计算 中 
使 用 随机 选择 以 求解 数值 和 物理 问题 。 由 于 每 个 计算 与 其 他 
计算 是 独立 的 ， 因 此 属于 易 并 行 方法 。 蒙 特 卡 罗 (Monte 
Carlo) 这 一 名 字 是 “在 二 次 大 战 实 施 曼 哈 顿 计划 期 间 由 
Metropolis 创 造 的 ， 因 为 统计 模拟 与 游戏 中 的 获胜 机 会 有 类 
似 性 ， 而 摩纳哥 首都 蒙特 卡 罗 在 那 时 是 赌博 中 心 ”。 

在 文献 中 多 次 重复 出 现 的 一 个 例子 是 计算 x 值 [Fox et al.， 
1998; Gropp, Lusk and Skjellum, 1994; Kalos and 
Whitlock ，1986] 的 方法 如 下 。 在 正方 形 中 有 一 内 切 圆 ， 如 图 
3-7 所 示 。 该 圆 的 半径 为 1 ， 故 正方 形 的 面积 为 2x 2。 圆 面积 
与 正方 形 面 积 的 比 由 下 式 给 定 : 


+(p— D(anwp + aoa ) +k 








圆 面积 XI7 x 
正方 形 面积 2x2 4 


(只 要 圆 内 切 于 正方 形 对 任何 尺寸 的 圆 都 会 得 到 相同 结果 )。 1 flx) 

随机 地 从 正方 形 中 选 点 ， 并 记录 有 多 少 点 恰好 也 落 在 圆 内 。 

只 要 随机 地 选择 足够 多 的 采样 点 ， 那 么 处 于 圆 中 的 点 与 全 部 

点 的 比例 将 为 r/4。 y= Vi-x 
在 已 知 界定 区 域内 的 任何 形状 的 面积 都 可 用 上 述 方法 计 

算 或 是 在 曲线 下 的 面积 用 积分 求解 。 图 3-7 中 的 四 分 之 一 圆 ， 1 


a 图 3-8 用 蒙特 卡 罗 法 计算 x 时 
作为 函数 表示 已 示 于 图 3-8， 它 可 用 积分 描述 为 : 的 被 积 攻 数 


VE- 
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( 正 的 平方 根 )。 将 生成 随机 数 对 (x,, y, )， 每 一 个 数 都 处 于 0 和 1 之 间 ， 如 果 y. < Vl- 起 就 将 它 计 
为 处 在 圆 内 ， 即 有 六 + 图 《1。 

该 方法 可 用 来 计算 任何 的 定 积分 。 不 幸 的 是 ， 该 方法 的 效率 很 低 ， 且 需要 知道 所 感 兴 
区 域内 函数 的 最 大 值 和 最 小 值 。 另 一 种 求 积分 方法 是 概率 法 ， 它 用 x 的 随机 值 计算 F 0 ， 并 时 
加 f (x) 的 值 


2 C 
面积 = fd im Df -加 ) 


式 中 心 是 xz 在 zx 和 x 之 间 随 机 生成 的 值 ， 该 方法 也 可 算 为 蒙特 卡 罗 法 ， 虽 然 有 些 人 只 将 在 
求解 时 不 选择 随机 值 的 方法 归属 于 蒙特 卡 罗 法 。 已 有 论著 对 蒙特 卡 罗 法 做 了 重要 的 数学 支持 ， 
在 [Kalos and Whitlock，1986] 这 样 的 教科 书 中 可 看 到 有 关 材 料 。 在 实际 情况 中 ， 蒙 特 卡 罗 法 
并 不 用 于 求解 单 重 积分 ， 因 为 用 求 面积 定 积分 方法 的 效果 更 好 (参见 4.2.2 节 )。 但 是 蒙特 卡 罗 
法 对 求解 具有 大 量变 量 的 积分 显得 非常 有 用 ， 因 而 在 这 些 情况 下 ， 它 是 非常 实用 的 。 

下 面 让 我 们 来 看 一 下 用 f (x) =x? 一 3x 作为 具体 例子 时 ， 如 何 实 现 蒙特 卡 罗 法 ， 也 就 是 要 计 
算 积分 


1= f° -3x)dx 


1. 顺序 代码 

顺序 代码 可 为 如 下 形式 : 

sum = 0; 

for (i = 0; i < N; i++) { /* N random samples */ 
xr = rand v(xl, x2); /* generate next random value */ 
Sum = Sum + Xr * Xxr - 3 * xr; /* compute f(xr) */ 

} 

area = (sum / N) * (x2 - x1); 


例 程 rand_v (x1,x2) 将 返回 处 于 x1 和 x2 之 间 的 一 个 伪 随 机 数 。 代 码 中 选取 了 固定 的 采 
样 数 ; 事实 上 积分 计算 应 达到 某 一 规定 精度 ， 这 就 要 进行 统计 分 析 以 确定 所 需 的 采样 数 。 有 
关 蒙 特 卡 罗 法 的 教科 书 ， 如 [Kalos and Whitiock ，1986]， 对 统计 系数 做 了 详尽 的 研究 。 

2. 并 行 代码 

由 于 迭代 相互 独立 ， 所 以 该 问题 是 易 并 行 的 。 问 题 
的 焦点 是 如 何 使 每 次 计算 都 能 使 用 不 同 的 随机 数 且 这 些 
数 之 间 又 不 存在 相关 性 的 方式 生成 随机 数 。 可 使 用 
rand( ) 这 样 的 标准 库 伪 随机 数 生成 器 ( 稍 后 论 及 )。 在 
[Gropp、Lusk，and Skjellum ，1994] 中 使 用 的 方法 是 让 - 
一 个 独立 的 进程 负责 生成 下 一 个 随机 数 。 图 3-9 对 此 结构 
做 了 说 明 。 首 先 ， 由 主 进程 启动 为 它们 的 每 次 计算 向 随 
机 数 进程 请 求 一 个 随机 数 的 从 进程 ; 然后 由 各 个 从 进程 
形成 各 自 的 部 分 和 ， 并 将 其 返回 给 主 进程 ， 再 由 主 进程 
进行 最 后 的 累加 。 如 果 要 求 每 个 从 进程 完成 相同 的 迭代 
次 数 且 该 系统 是 同 构 的 (相同 处 理 器 )， 那 么 各 从 进程 将 
基本 同时 完成 。 





随机 数 进程 
图 3-9 并 行 蒙特 卡 罗 积分 


随机 数 进程 每 次 只 能 为 一 个 从 进程 服务 ， 并 且 访 方法 只 能 向 各 个 从 进程 逐个 发 送 随机 数 ， 
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从 而 具有 很 大 的 通信 开销 。 可 将 随机 数 成 组 发 送 以 减少 启动 时 间 的 影响 。 也 可 将 随机 数 生成 
器 的 代码 放 在 主 进程 中 ， 因 为 在 整个 计算 期 间 这 个 进程 在 主 进程 中 不 会 起 作用 。 综 上 所 述 就 
可 得 到 如 下 的 并 行 伪 代 码 形式 : 
主 进程 
for(i = 0; i < N/n; i++) { 
for (j = 0; j < n; j++) /*n=number of random numbers for slave */ 
xr[j] = rand(); /* load numbers to be sent */ 
recv (Pany, req tag, Psource); /* wait for a slave to make request */ 
send (xr, &n, Psource' compute_tag); 
} 


for(i = 0; i < num slaves; i++) { /* terminate computation */ 
recv{Pi, req tag); 
send (Pi, stop_tag); 
} 
sum = 0; 
reduce_add (&sum, Pgroup); 
从 进程 
sum = 0; 
send (Pmnaster, req tag); 
recv(xr, &n, Pnaster: SOUICe_tag) ; 
while (source tag == compute tag) { 
for (i = 0; i < n; i++) 
sum = sum + xr[i] * xr[i] - 3 * xr[i]; 
send (Phnaster: req tag); 
recv(xr, &n, Phnaster: SOouUrce tag); 
}; 
reduce_add (&sum, Pgroup); 


在 上 述 代码 中 ， 主 进程 用 一 个 源 通配符 (Pawx) 等 待 任何 从 进程 的 响应 。 实 际 从 进程 响应 
的 序号 可 以 从 状态 调用 或 参数 中 获得 。 我 们 简单 地 在 消息 信封 中 指明 源 。 用 担 手 方式 通信 非 
常 可 靠 , 但 与 不 带 请 求 的 简单 发 送 数据 相 比 ， 它 有 额外 的 通信 开销 ; 正如 我 们 所 见 到 的 那样 ， 
为 获得 高 的 执行 速度 ， 减 小 通信 开销 也 许 是 最 为 重要 的 。 如 何 取消 担 手 过 程 将 作为 一 个 练习 
留 给 读者 自己 解答 。 例 程 xeudce_addq( ) 是 我 们 用 来 指明 集合 完成 加 法 的 归 约 例 程 的 记号 ， 
并 用 记号 Poroup 说 明 一 个 进程 组 。 

3. 并 行 随机 数 的 生成 

要 成 功 进行 蒙特 洛 罗 模拟 ,随机 数 之 间 必 须 相互 独立 。 生 成 伪 随 机 数 序列 Xl1，xX2，…，xi-1， 
Xig Xitls *", Xn-l, Xn 的 最 流行 的 方法 ， 是 从 精心 选择 的 x; 的 函数 从 而 求 得 xi+1。 问题 的 关键 是 
要 找到 一 个 能 以 正确 的 统计 特性 生成 很 长 的 序列 的 函数 。 通 常 所 用 的 这 种 函数 的 形式 为 : 

Xitl= (axi+c) modm 

其 中 a、c 和 m 为 常数 ， 选 用 它们 是 为 了 生成 一 个 具有 类 似 于 真正 随机 序列 特征 的 序列 。 使 用 
这 种 方程 形式 的 生成 器 称 为 线性 同 余生 成 器 (linear congruential generator )。a、c 和 可 选 
取 许 多 不 同 值 ， 其 中 大 多 数 的 这 种 生成 器 的 统计 特性 已 公开 报导 (参见 [Knuth,1981]、 标 准 
参考 书目 ， 以 及 [Anderson，1990])。 一 个 “好 ”的 生成 器 对 这 三 个 常数 的 取 值 为 a = 16807， 
m =231--1 (质数 ) 以 及 c = 0 [Park and Miller,1998]。 该 生成 器 能 生成 一 个 有 2-2 个 不 同 数 的 
重复 序列 ( 即 这 类 生成 器 能 产生 的 最 大 数 为 m-1)。 用 这 类 生成 器 进行 蒙特 卡 罗 模 拟 的 缺点 是 
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其 速度 较 慢 。 
尽管 伪 随 机 数 的 计算 本 质 上 是 顺序 的 ， 因 为 每 个 数 需 从 前 一 数 计算 得 到 ， 但 并 行 公 式 实 
现 生 成 序列 的 速度 的 增长 仍 是 可 能 的 。 它 具有 以 下 形式 : 
A Xit+i= (aox+c)mod 7 
Xirt=(Ax+C)modm 
式 中 4 =atmodm,， C=ce(c+ac2+…+a+G)mod 产 上 且 是 一 个 所 选 的 “跳跃 ”常数 。 
对 4 和 C 进 行 计 算 和 使 用 时 必须 小 心 ， 这 是 因为 它们 含有 大 量 数 的 缘故 ， 但 它们 仅 需 计算 一 次 
(对 先前 叙述 的 好 的 生成 器 来 讲 ， 不 需要 C。) 若 给 定 m 个 处 理 器 ， 则 序列 中 的 前 m 个 数 将 顺序 
生成 。 此 后 这 些 数 中 的 每 一 个 可 并 行 地 用 来 创建 下 m 个 数 ， 如 图 3-10 所 示 ， 接 着 再 生成 下 mm 个 
数 ， 以 此 类 推 。 


$6-EO SHC 


图 3-10 序列 的 并 行 计算 


如 果 m 为 2 的 乘 方 ， 那 么 计算 就 可 简化 ， 因 为 取 模 运算 将 简单 地 返回 低 m 位 。 不 幸 的 是 ， 
这 种 形式 的 生成 器 常 要 对 m 使 用 一 个 质数 以 获得 良好 的 伪 随 机 数 特征 。[Fox，Williams and 
Messina，1994] 叙 述 了 使 用 ”2 = (xi -6 + Xi-w27) mod 23! 公式 的 不 同类 型 的 随机 数 生 成 器 ， 它 能 
自然 地 从 与 以 前 的 数 有 较 远 距离 的 数 中 生成 数 。 

有 好 几 种 类 型 的 伪 随 机 数 生成 器 ， 每 种 类 型 使 用 不 同 的 数学 公式 。 一 般 而 言 ， 公 式 用 前 
面 生 成 的 数 来 计算 序列 中 的 下 一 个 数 ， 这 样 所 有 的 数 就 是 确定 的 和 可 重复 的 。 可 以 重复 这 一 
点 有 利于 测试 程序 ， 但 公式 必须 统计 地 生成 好 的 随机 数 序 列 。 测 试 随机 数 生成 器 的 研究 领域 
已 有 很 长 的 历史 ,但 这 已 超出 本 书 的 范围 。 然 而 在 选择 和 使 用 随机 数 生成 器 时 需要 特别 小 心 。 
某 些 早期 的 随机 数 生 成 器 在 相对 于 特征 统计 数字 的 测试 时 已 显 出 相当 差 的 特性 。 即 使 一 个 随 
机 数 生成 器 从 统计 测试 中 显 出 能 创建 一 系列 随机 数 ， 我 们 仍 不 能 肯定 取 自 序列 的 不 同 子 序列 
或 数 的 采样 是 不 相关 的 。 这 就 使 得 在 并 行程 序 中 使 用 随机 数 生成 器 充满 了 困难 ， 因 为 在 并 行 
程序 中 使 用 简单 的 原始 方法 可 能 不 会 产生 随机 序列 ， 而 且 程 序 员 也 许 没有 意识 到 这 一 点 。 

一 般 在 并 行程 序 中 ， 如 我 们 已 描述 的 那样 可 能 试图 依赖 一 个 集中 式 线性 同 余 伪 随机 数 生 
成 器 向 请 求 的 从 进程 发 送 数 。 除 了 引起 通信 开销 和 在 集中 式 通 信 点 处 造成 瓶颈 以 外 ， 还 存在 
这 样 一 个 很 大 的 问题 即 是 否 每 一 个 从 进程 得 到 的 真是 一 个 随机 序列 ， 且 这 些 序列 本 身 不 存在 
某 种 形式 的 相关 (可 通过 统计 确认 这 一 点 )。 另 外 ， 所 有 的 随机 数 生成 器 会 在 某 点 重复 它们 的 
序列 ， 而 使 用 单个 的 随机 数 生成 器 将 更 可 能 使 它 形成 序列 的 重复 。 另 一 种 方案 为 每 个 从 进程 
使 用 一 个 独立 的 伪 随 机 数 生成 器 。 但 是 ， 如 果 使 用 相同 的 公式 即使 是 起 始 于 不 同 的 数字 ， 在 
多 处 理 器 中 仍 可 能 出 现 部 分 的 相同 序列 ， 退 一 步 讲 即使 这 种 情况 不 会 发 生 ， 我 们 仍然 不 能 立 
即 假设 在 序列 间 不 存在 相关 。 可 以 看 到 为 并 行程 序 想 出 好 的 伪 随 机 序列 是 一 个 的 挑战 性 问题 。 

由 于 伪 随 机 数 生成 器 在 并 行 蒙特 卡 罗 计 算 中 至 关 重要 ， 已 为 发 现 可 靠 伪 随机 数 生成 器 的 
并 行 版 本 作 了 不 少 努力 。SPRNG (Scalable Pseudorandom Number Generator, 可 扩展 伪 随 机 数 
生成 器 ) 是 一 个 专门 用 于 并 行 蒙特 卡 罗 计 算 的 库 并 且 为 并 行进 程 生成 随机 数 流 。 该 库 有 几 个 
不 同 的 生成 器 ， 其 主要 特征 是 能 使 进程 间 的 相关 性 最 小 化 以 及 为 MPI 提 供 了 一 个 接口 。 

对 于 在 并 发 进程 间 肯 定 不 存在 交互 的 易 并 行 蒙特 卡 罗 模 拟 ， 使 用 子 序 列 也 许 是 满意 的 


《如 果 全 序列 是 随机 的 则 这 些 子 序列 可 能 是 相关 的 )， 且 计算 完全 与 顺序 完成 的 一 样 。 对 此 问 
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题 的 进一步 探讨 作为 一 个 习题 留 给 读者 (习题 3-14 ) 。 
3.3 小 结 


本 章 介绍 了 以 下 概念 : 
“(理想 的 ) 易 并 行 计算 

“ 易 并 行 问 题 和 分 析 

。 分 割 二 维 数据 集 

* 获得 负载 平衡 的 工作 池 方 法 
* 计数器 终止 算法 

* 蒙特 卡 罗 法 

* 并 行 随机 数 生成 


推荐 读物 


[Fox，Williams，and Messina，1994] 提 供 了 关于 易 并 行 应 用 问题 (独立 并 行 性 ) 的 重要 研 
究 细 节 。 有 关 图 形 学 的 大 量 细节 可 在 [Foley et al.，1990] 中 找到 。 有 关 图 像 处 理 的 内 容 则 可 在 
[Haralick and Shapiro，1992] 中 找到 ， 我 们 将 在 第 11 章 中 对 此 主题 做 进一步 的 探讨 。[Dewdney， 
1985] 撰 写 了 一 系列 有 关 编 写 计 算 曼 德 勃 罗 特 集 的 论文 。 有 关 蒙 特 卡 罗 模 拟 的 细节 可 在 [Halton， 
1970]、[Kalos and Whitlock，1986]、[McCracken，1955] 和 [Smith，1993] 中 找到 。[Fox et al.， 
1988] 以 及 [Gropp，Lusk，and Skjellum，1999] 对 并 行 实现 做 了 讨论 。 有 关 并 行 随机 数 生成 器 的 
讨论 可 参见 [Bowan and Robinson，1987]、fFoster，1995]、[FEox，Williams，and Messina，1994]、 
[Hortensius ，McLeod，and Card，1989]， 以 及 [Wilson，1995]。 即 使 在 顺序 程序 中 也 应 非常 说 
慎 地 使 用 随机 数 生成 器 。 有 关 在 这 种 应 用 中 的 不 同 随机 数 生 成 器 的 研究 可 在 [Wilkinson，1989] 
中 找到 。[Masuda and Zimmermanmm ，1996] 阐 述 了 专 为 并 行 计算 使 用 的 随机 数 生成 器 的 库 。 有 关 
例子 是 用 MPI 编 写 的 。 有 关 SPRNG 的 细节 可 在 http://sprng.cs.fsu.edu/main.html 中 找到 。 
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习题 
科学 /数值 习题 


3-1 
3-2 


3-3 
3-4 


3-5 


试 编写 一 个 能 以 合适 的 非 压缩 格式 (例如 PPM 格 式 ) 读 出 一 个 图 像 文件 并 生成 一 个 向 右 
移动 N 个 像素 的 图 像 文 件 的 并 行程 序 ， 这 里 的 N 是 一 个 输入 参数 。 
实现 本 章 中 所 描述 的 图 像 变换 。 
重 写 3.2.1 节 中 的 伪 代 码 ， 以 使 它 能 运行 在 80 x 80 的 正方 形 区 域 而 不 是 行 组 区 域 。 
视窗 变换 涉及 到 在 一 个 未 被 显示 的 图 中 选择 感 兴趣 的 一 个 矩形 区 域 ， 并 将 已 得 到 的 视图 
移植 到 一 个 指定 的 位 置 显 示 。 需 注意 的 是 ， 所 选 的 矩形 区 域 以 AX 和 Ay 度 量 ， 且 在 未 显 
示 图 像 的 坐标 系统 中 左下 角 的 坐标 为 (X,Y)。 处 于 该 矩形 中 的 点 (x，y) 将 通过 以 下 
的 转换 公式 转换 到 以 AX” 和 AY' 度 量 的 矩形 中 : 
XxX’ = (AX/AX)(x—X) + XX 
y' =(AY/ADGO-D +Y’ 
如 果 AX’ 与 AX 以 及 AY' 与 AY 不 相等 , 则 会 有 缩放 。 只 要 有 可 能 就 应 在 进行 其 他 变换 前 ， 
先进 行 视窗 变换 ， 这 样 可 以 减 小 进行 后 续 变 换 的 计算 量 。 试 编写 能 完成 视窗 变换 的 
程序 。 
以 (x，y，z) 坐标 形式 表示 的 三 维 图 画 可 用 透视 转换 方法 将 其 投影 到 一 个 二 维 平面 上 。 
在 做 这 种 变换 时 ， 必 须要 消除 隐藏 线 。 在 此 之 前 ， 可 对 图 画 进行 三 维 的 平移 、 缩 放 和 旋 
转变 换 。 将 一 个 三 维 对 象 绕 x 轴 旋转 6 角度 需 进 行 如 下 的 变换 : 
X'=X 
y=ycosO+t+z sinO 
2z =2zcosO-ysin gb 
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对 y 和 z 轴 可 进行 类 似 的 旋转 变换 。 编 写 能 完成 三 维 变换 的 并 行程 序 。 

用 分 散 例 程 代替 单个 地 向 每 个 从 进程 发 送 起 始 行 ， 重 写 3.2.2 节 中 进行 曼 德 勃 罗 特 计算 的 
并 行 伪 代码 。 而 且 在 每 个 从 进程 中 使 用 单个 消息 返回 它 的 集合 结果 。 对 你 的 编码 进行 必 
要 的 分 析 。 

从 http:Wwww.cs.uncc.edu/par_prog/ 下 载 顺 序 的 曼 德 勃 罗 特 程序 ， 并 按说 明 编 译 和 运行 该 
程序 。( 此 程序 用 Xlib 调 用 图 形 ， 它 必须 与 相应 的 库 连 接 )。 修 改 该 程序 以 使 用 静态 负载 
平衡 运行 并 行程 序 (也 就 是 ， 将 图 像 简 单 地 分 成 固定 区 域 )。 在 你 的 系统 执行 并 测试 代 
码 以 获得 并 行 执行 时 间 。 

重 做 习题 3-7， 但 用 动态 负载 平衡 。 

继续 习题 3-7 和 3-8， 在 曼 德 勃 罗 特 计算 中 对 不 同 的 z 的 起 始 值 进 行 实验 。 


3-10 在 以 下 两 个 函数 的 基础 上 ， 分 别 编写 计算 分 形 (fractal) (分 数 维 ) 图 像 的 一 个 顺序 和 
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一 上 


3-12 


3-13 


3-14 


3-15 


一 个 并 行程 序 ， 其 中 第 一 个 函数 : 
Zi = 2 +C 
而 第 二 个 函数 [Briunl，1993] 为 : 
z=2 +(c-l)z-c 
式 中 zo = 0， 而 c 则 以 复数 形式 提供 图 像 中 一 个 点 的 坐标 。 
实验 性 地 比较 在 3.2.3 节 中 所 描述 的 计算 积分 的 两 种 蒙特 卡 罗 方 法 。 使 用 计算 mw/4 的 积分 : 


[Led 
重 写 3.2.3 节 中 的 蒙特 卡 罗 积 分 代码 ， 要 求 取消 主 进程 中 显 式 地 请 求 数 据 部 分 ， 并 对 你 
的 解答 进行 必要 的 分 析 。 
阅读 [Hortensius，McLeod and Card，1989] 的 论文 ， 并 根据 该 论文 所 描述 的 方法 ， 编 写 
并 行 随机 数 生 成 器 的 代码 。 
研究 在 易 并 行 蒙特 卡 罗 模 拟 中 使 用 取 自 随机 数 生成 器 但 存在 潜在 相关 子 序列 的 影响 。 
对 这 一 主题 进行 文选 搜索 并 写 出 报告 。 
整数 集合 的 缩 灭 〈collapse) 定义 为 该 集合 中 的 整数 之 和 。 类 似 地 ， 单 个 整数 的 缩 灭 定 
义 为 它 的 各 个 十 进位 之 和 。 例 如 ， 整 数 134957 的 缩 灭 为 29。 显 然 这 一 过 程 可 递归 地 实 
现 ， 直 到 生成 单个 十 进 制 数 的 结果 : 29 的 缩 灭 为 11 ， 而 11 的 缩 灭 为 单个 十 进 制 数 2。 一 
个 整数 集 的 最 终 缩 灭 就 是 它们 的 缩 灭 跟 着 递归 地 缩 灭 直到 只 剩 下 单个 十 进 制 数 {0，1， 
…, 9 所 得 到 的 结果 。 你 的 任务 是 编写 一 个 程序 找到 由 N 个 整数 组 成 的 一 维 数 组 的 最 终 
缩 灭 。 你 可 采 下 面 所 列 出 的 不 同方 法 : 

1) 并 行使 用 K 台 计算 机 ， 每 台 计 算 机 对 大 约 N/K 个 整数 相 加 ， 并 将 它们 的 局 部 和 送 给 主 

进程 ， 由 后 者 将 这 些 部 分 和 加 起 来 ， 形 成 该 整数 的 最 终 缩 灭 。 

2) 并 行使 用 K 台 计算 机 、 每 台 计 算 机 对 N/K 个 整数 的 局 部 集合 进行 缩 灭 ， 并 将 部 分 结果 
送 给 主 进程 ， 由 后 者 生成 部 分 缩 灭 的 最 终 缩 灭 。 

3) 并 行使 用 K 台 计算 机 ， 每 台 计 算 机 对 它们 局 部 的 MK 个 整数 集中 的 每 一 个 整数 逐个 地 
进行 最 终 缩 灭 ， 然 后 将 这 些 局 部 的 已 缩 灭 的 整数 加 在 一 起 ， 再 递归 地 缩 灭 这 些 结果 
以 得 到 一 个 单个 的 十 进 制 数 。 然 后 K 台 计算 机 中 的 每 一 台 将 它 的 十 进 数 发 送 给 主 进程 ， 
做 最 后 的 求 和 和 最 终 的 缩 灭 。 

4) 按照 前 述 三 种 方法 中 的 任 一 种 ， 用 单 台 计算 机 处 理 所 有 N 个 整数 。 

5) (特别 鼓励 做 这 一 小 题 ) 证 明 前 面 的 三 种 方法 在 对 和 N 个 整数 集合 进行 最 终 缩 灭 
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时 ， 就 产生 相同 的 十 进 制 数 结果 而 言 是 等 价 的 。 


现实 生活 习题 


3-16 


3-17 


3-18 


Kim 从 她 的 英语 课程 中 知晓 ， 回 文 【palindrome) 是 指 忽 略 大 写 、 从 右 向 左 与 从 左 向 右 
阅读 完全 一 样 的 短语 。 她 回想 起 该 问题 的 称呼 要 归功 于 拿破仑 ， 他 被 流放 到 厄 尔 巴 岛 
并 死 在 那里 。 由 于 是 属 数学 头脑 类 型 ，Kim 将 此 作为 她 的 业余 爱好 ， 在 她 的 汽车 里 程 表 
中 寻找 回 文 245542( 她 的 旧 车 ) 或 002200 (她 的 新 车 )。 

现在 ， 在 她 完成 计算 机 科学 的 大 学 课程 后 所 找 的 第 一 份 工作 中 ，Kim 再 次 与 回 文 
打交道 。 作 为 其 工作 的 一 部 分 ， 她 正在 开发 另 一 种 安全 编码 算法 ， 其 前 提 是 编码 字符 
不 是 回 文 。 她 的 第 一 项 任务 是 考察 一 个 巨大 的 字符 串 集 ， 识 别 出 其 中 哪些 是 回 文 ， 这 
样 就 可 从 候选 编码 字符 串 列 表 中 将 它们 删除 。 

字符 串 由 字母 (a, …, z, A, …,Z) 和 数字 (0, …, 9) 组 成 。Kim 使 用 一 个 一 维 的 指 
针 数 组 mylist[ ] ， 其 中 的 每 个 元 素 指 向 一 个 字符 串 的 起 始 位 置 。 如 同 所 有 字符 串 一 
样 ， 字 符 序列 以 空 字符 0” 终止 。Kim 的 程序 须 检验 每 一 个 字符 串 并 打印 出 对 应 于 回 
文 的 所 有 字符 串 的 号 码 ( 即 标识 字符 串 mylist[ ] 的 下 标 )。 
Andy、Tom、Bill 和 Fred 花 费 了 一 年 级 的 大 部 分 时 间 一 起 玩 一 种 简单 的 纸牌 游戏 。 他 
们 分 发 一 登 52 张 的 纸牌 ,每 人 13 张 。 游 戏 规则 类 似 于 桥牌 : 两 个 人 组 成 一 队 ， 他 们 与 
另 一 队 的 两 个 人 相隔 而 坐 。 所 有 52 张 牌 以 顺 时 针 方 向 每 次 分 发 一 张 。 由 发 牌 者 首先 出 
牌 ， 游 戏 者 按 顺 时 针 方向 依次 出 牌 ， 且 只 要 可 能 必须 以 同一 花色 跟着 出 牌 ; 同 花 色 中 
的 最 大 的 牌 将 赢得 一 墩 四 张 牌 ， 除 非 有 人 出 了 一 张 “ 将 牌 ”; 且 在 这 种 情况 下 ， 最 高 
的 将 牌 将 赢得 该 墩 牌 。 在 出 完 每 个 人 手中 所 有 13 张 牌 后 ， 就 将 发 牌 机 会 转 给 左边 的 游 
戏 者 。 游 戏 者 的 目标 是 为 自己 的 队 赢得 最 多 的 壤 数 。 由 竟 叫 最 多 墩 数 的 游戏 者 确定 何 
种 花色 为 将 牌 ， 也 就 是 由 他 叫 出 他 〈 她 ) 认为 他 (她) 的 队 可 能 赢得 的 最 高 墩 数 。 竞 
叫 从 发 牌 者 开始 ， 并 顺 时 针 方 向 轮流 竞 叫 ， 直 到 四 个 游戏 者 均 宣布 不 再 竞 叫 为 止 。 每 
次 后 继 的 竞 叫 必须 至 少 比 前 一 次 高 出 一 墩 。 如 果 无 人 竞 叫 ， 就 认为 发 牌 者 以 最 小 的 7 
墩 竞 叫 成 功 。 
但 是 近来 这 组 中 的 一 位 重新 对 学 习 有 了 浓厚 的 兴趣 ， 结 果 是 在 某 些 晚上 只 能 是 少 于 四 
个 人 在 一 起 玩 。Tom 决 定编 写 一 个 小 型 的 游戏 程序 以 填补 所 缺少 的 游戏 者 。Fred 则 要 
使 其 成 为 一 个 并 行 计算 的 实现 ， 以 允许 有 多 于 一 人 的 缺 赛 者 。 你 的 工作 是 帮助 Fred 实 
现 这 一 并 行 计算 的 程序 。 
一 家 小 公司 正面 临 满 足 服 务 要 求 的 困难 : 从 一 个 巨大 的 数据 库 中 检索 数据 。 该 公司 的 
传统 做 法 是 将 要 检索 的 条 款 清单 交 给 一 位 雇员 ， 由 他 (她) 人 工地 从 文件 中 找到 它们 。 
但 该 公司 已 有 了 神速 进步 ， 现 在 它 将 条 款 清单 交 给 程序 ， 由 该 程序 从 数据 库 中 找 出 它 
们 。 但 近来 条 款 清单 迅速 膨胀 到 如 此 大 的 程度 ， 使 得 检索 过 程 非常 耗 时 ， 以 致 于 引 来 
了 顾客 的 投诉 。 为 此 该 公司 提供 给 你 一 份 工作 ， 要 求 你 用 多 台 机 器 并 行 地 进行 检索 ， 
并 将 要 检索 的 条 款 清单 加 以 分 割 ， 以 便 在 多 台 机 器 上 完成 检索 。 
第 一 部 分 : 在 将 检索 进程 转向 用 并 行 处 理 实现 检索 的 过 程 中 ， 要 认 清 你 所 面临 的 所 有 

陷阱 或 障 栅 ， 这 些 困难 在 现 有 的 串 行 / 单 处 理 器 中 是 不 会 出 现 的 。 

第 二 部 分 : 对 在 第 一 部 分 中 所 认 清 的 每 一 项 ， 理 出 一 个 或 多 个 解决 办 法 。 
第 三 部 分 : 模拟 一 个 复合 解 ， 并 行使 用 多 处 理 机 从 大 型 数据 库 中 检索 出 清单 上 所 列 的 
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所 有 条 款 。 

在 过 去 的 35 年 中 ， 一 系列 无 人 参与 的 雷达 映射 任务 已 绘制 出 月 球 表面 十 分 详尽 的 地 形 
图 。 这 些 信 息 已 被 数字 化 ， 且 以 称 为 Mercator 投 影 的 类 似 机 格格 式 供 人 们 使 用 。 下 一 个 
无 人 着 陆 区 域 的 地 形 数 据 包含 在 100 x 100 的 栅 格 点 数组 中 ， 用 来 指明 在 10 公 里 x 10 公 
里 范围 内 ， 高 出 月 球 表面 平均 水 平面 之 上 (或 之 下 ) 的 高 度 。 选 择 这 一 特定 着 陆 的 区 
域 是 因为 它 的 渐变 地 形 ; 你 可 以 假设 在 任何 两 个 邻近 栅 格 点 间 进 行 线性 插值 以 精确 地 
描述 那些 栅 格 点 间 的 地 形 。 

在 火箭 着 落 到 所 指定 的 10 公 里 x 10 公 里 区 域内 的 某 地 时 ， 它 将 派 遗 许多 自动 机 器 
人 。 这 些 机 器 人 将 对 该 区 域 进行 详尽 考察 ， 并 将 测 得 的 结果 借助 可 见 光 光 波 通 信和 链 路 
(由 机 器 人 发 射 闪烁 光 ， 而 由 火箭 加 以 检测 ) 传 回 给 火箭。 一旦 考察 完成 后 ， 机 器 人 能 
很 快 找到 可 进行 可 见 光 通 信 的 最 近地点 是 至 关 重 要 的 ， 因 为 机 器 人 只 有 很 短 的 电池 寿 
命 。 

火箭 设计 者 们 保证 他 们 的 接收 天 线 将 在 着 落 点 之 上 20 米 ， 而 机 器 人 上 的 发 送 天 线 
在 机 器 人 所 在 地 点 的 1 米 之 上 ， 无 论 它 在 区 域 中 的 什么 地 方 。 这 样 ， 在 给 定 100 x 100 数 
组 以 及 火箭 和 机 器 人 的 栅 格 点 位 置 后 ， 你 的 任务 是 确定 离 机 器 人 最 近 的 栅 格 点 ， 在 该 
点 上 允许 机 器 人 以 可 见 光 与 火箭 进行 通信 。 你 可 以 假设 地 形 图 数据 数组 包含 的 仅 是 处 
于 +100 米 到 -100 米 之 间 的 以 整数 值 表 示 的 高 度 ， 而 火箭 和 机 器 人 在 接受 你 的 程序 时 将 
处 在 栅 格 点 上 。 
给 定 一 个 100 x 10 000 的 浮 点 数 数组 、 这 些 浮 点 数 用 来 表示 在 Nella 学 院 进行 京 饪 艺术 最 
终 考 试 的 一 系列 “烘焙 比赛 ”中 所 收集 到 的 数据 。 如 同 所 有 评分 系统 一 样 ， 在 给 出 确 
切 的 评分 等 级 前 ， 必 须 对 这 些 数据 进行 规范 化 。 对 100 个 学 生 中 的 每 一 个 (他 的 数据 在 
具有 10 000 个 值 的 行 中 )， 必 须 完成 以 下 操作 : 
INS (初始 规范 化 评分 ) 
在 指定 行 中 所 有 大 于 0 且 小 于 100 的 数据 值 的 平方 的 平均 值 。 
FNS (最 终 规范 化 评分 ) 
将 该 学 生 的 INS 的 分 数 与 所 有 其 他 学 生 的 INS 的 分 数 进行 比较 。 如 果 该 生 的 INS 分 数 处 
在 全 部 学 生 的 前 10% 内 ， 则 该 生 将 得 到 4.0 的 FNS; 处 在 接 下 来 的 20% 分 数 段 内 的 学 生 ， 
得 到 的 FNS 为 3.0; 处 在 再 接 下 来 的 30% 分 数 段 内 的 将 得 到 2.0 的 FNS; 处 在 再 往 下 20% 
分 数 段 内 的 学 生得 分 将 为 1.0 的 FNS; 其 余 的 学 生 (20%) 将 得 到 0.0 的 FNS， 这些 学 生 
的 结局 是 只 得 进入 下 一 年 的 “烘焙 比赛 ”。 
你 编写 的 程序 要 用 以 下 两 种 方式 打印 出 FNS 的 分 数 : 
1) FNS 的 分 数 表 ， 对 所 有 学 生 用 学 生 ( 行 号 ，FNS) 表示 。 
2) 学 生 表 ， 对 所 有 的 FNS 值 ， 用 FNS (ENS， 具 有 该 FNS 值 的 所 有 行 [学 生 ] 表 ) 表示 。 
近来 ， 出 现 了 某 种 对 公共 健康 的 恐慌 ， 就 是 有 关于 在 几 个 大 城市 的 供水 系统 中 出 现 了 
细菌 神秘 孢子 (cryptosporidium )。 这 已 经 引起 了 大 家 的 注意 ， 即 一 个 文学 恐怖 主义 者 
团伙 正在 扩散 细菌 ， 他 们 将 细菌 巧妙 地 秘密 地 伐 入 小 说 中 。 你 受 一 家 大 出 版 公司 的 雇 
用 对 一 本 新 小 说 进行 搜索 ， 以 查找 单词 cryptosporidium 的 出 现 。 已 知 恐 怖 主义 者 将 采 
用 插入 标点 符号 、 大 写 化 以 及 空格 来 伪装 cryptosporidium 的 出 现 ; 查找 该 单词 的 实例 
比 在 正文 中 搜查 一 个 单词 要 做 更 多 的 工作 。 例 如 ， 在 一 个 高 度 公开 案例 中 ， 其 中 的 一 
页 用 以 下 的 句子 结尾 : 


“Leaving his faithful companion, Ospor, to guard the hallway, Tom crept slowly 
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down the stairs and entered the darkened crypt” 

而 在 下 一 页 则 以 以 下 的 句子 开头 

“Ospor, I dium, HELP!” cried Tom, as the giant bats he had disturbed flew around his head. 

当 一 个 职员 幸运 地 偶然 发 现 这 可 能 是 一 个 打印 排版 错误 ， 并 将 “I dium” 改 成 

“Im dying” 后 ， 就 使 该 书 在 即将 出 版 时 侥幸 地 避免 了 一 场 灾 难 。 由 于 该 出 版 公司 要 处 

理 大 量 书籍 ， 因 此 尽快 地 对 每 本 书 进行 扫描 至 关 重 要 。 为 了 做 到 这 一 点 ， 你 提出 将 任 

务 分 成 较 小 的 块 ， 然 后 并 行使 用 多 台 计 算 机 进行 搜查 ; 这 样 每 台 计 算 机 将 只 负责 搜查 

正文 的 一 部 分 。 如 果 成 功 的 话 ， 你 将 从 把 联网 计算 机 销售 给 出 版 公司 的 业务 中 获得 相 

当 可 观 的 佣金 。 

此 外 ， 还 有 如 下 的 两 个 方法 : 

1) 将 正文 分 成 大 小 相同 的 段 ， 并 将 每 一 段 分 配给 一 个 处 理 器 。 每 个 处 理 器 检查 所 分 到 
的 那 一 段 ， 并 将 有 关 信 息 〈 是 否 在 该 段 中 发 现 cryptosporidium ， 是 否 发 现 作为 该 段 
的 最 前 面 或 最 后 面 的 字符 是 潜在 的 该 细菌 的 一 部 分 ， 或 干脆 没有 发 现任 何 细菌 的 证 
据 ) 返回 给 主 进 程 ， 主 进程 将 细 查 传 回 给 它 的 信息 ， 并 对 全 书 加 以 整体 的 报导 。 

2) 将 正文 分 成 更 多 更 小 的 段 ， 其 数目 将 多 于 处 理 器 数 ， 并 使 用 工作 池 方 法 ， 在 这 种 方 
法 中 速度 快 的 处 理 器 将 完成 更 多 的 工作 ， 但 本 质 上 是 与 前 一 方法 相 类 似 的 。 

纳米 技术 是 最 近 的 热点 研究 领域 。 它 的 一 个 目标 是 利用 大 量 以 并 行 方式 运算 的 细小 部 

件 来 求解 涉及 从 环境 净化 〈 如 清除 油 溢 )、 战 场 清理 (排除 未 爆炸 的 军火 或 地 雷 ) 到 对 

火星 表面 的 探索 和 分 析 的 问题 。 

作为 一 个 并 行 化 的 专家 ， 选 择 纳米 技术 这 些 应 用 领域 中 的 一 个 ， 并 讨论 部 件 间 通 
信 的 需求 ， 它 要 求 保证 只 有 少 于 X% 的 正在 寻找 的 对 象 会 被 漏 掉 。 





第 4 章 划分 和 分 治 策略 


本 章 中 ， 我 们 将 讨论 并 行程 序 设 计 中 两 种 最 基本 的 技术 ， 即 所 谓 划分 (partitioning) 和 
分 治 (divide and conquer)， 它 们 二 者 是 紧密 相关 的 。 所 谓 划 分 就 是 将 问题 简单 分 为 几 个 独立 
的 部 分 ， 而 且 每 部 分 都 独立 计算 。 分 治 技术 则 是 以 递归 的 方式 应 用 划分 ， 在 将 问题 分 为 儿 个 
部 分 后 ， 并 不 急于 解决 这 些 部 分 和 将 结果 合并 ， 而 是 连续 地 将 这 些 部 分 分 为 更 小 的 部 分 。 我 
们 先 讨 论 划分 技术 ， 然 后 再 讨论 递归 的 分 治 方法 ， 接 着 我 们 会 概述 一 些 可 以 用 这 些 方法 解决 
的 典型 问题 。 和 前 几 章 一 样 ， 我 们 会 在 本 章 的 末尾 给 出 习题 ， 它 们 包括 科学 /数值 习题 和 现实 
生活 习题 。 


4.1 划分 
4.1.1 划分 策略 


划分 仅 是 简单 将 问题 分 为 儿 个 部 分 。 它 是 所 有 并 行程 序 设计 的 基础 ， 在 实际 应 用 中 可 能 
有 多 种 不 同 的 形式 。 第 3 章 中 讨论 的 一 些 易 并 行 问 题 就 使 用 了 划分 技术 划分 后 的 部 分 之 间 无 交 
互 。 然 而 ， 大 多 数 划 分 模式 需要 将 各 个 部 分 结果 合并 后 才能 获得 所 需 的 结果 。 划 分 技术 可 以 
应 用 于 程序 的 数据 (如 将 数据 分 解 ， 然 后 对 分 解 的 数据 并 行 操作 )， 这 种 方法 称 为 数据 划分 或 
域 分 解 。 划 分 技术 也 可 以 应 用 于 程序 的 功能 ，( 如 将 程序 分 为 独立 的 功能 模块 ， 然 后 并 发 地 执 
行 这 些 功 能 模块 )， 这 种 方法 称 为 功能 分 解 。 将 一 个 任务 分 为 几 个 小 任务 ， 不 论 这 些小 任务 是 
操作 数据 的 各 个 部 分 还 是 独立 的 并 发 功能 ， 当 小 任务 执行 结束 时 则 大 任务 也 就 执行 结束 ， 这 
种 思想 是 众所周知 的 且 可 以 应 用 于 很 多 场合 。 在 问题 中 存在 并 发 功能 的 情况 不 太 常见 ， 所 以 
数据 划分 是 并 行程 序 设计 的 主要 策略 。 

现在 让 我 们 考虑 一 个 实际 的 简单 数据 划分 的 例子 ， 假 设 一 个 数列 ，xo,…, x-1， 将 它们 求 
和 。 这 是 一 个 在 教材 中 反复 出 现 的 用 来 阐释 概念 的 问题 ,显然 如 果 数 列 不 是 很 大 ， 并 行 的 解 
决 方法 是 不 值得 的 。 然 而 ， 这 种 方法 可 用 于 解决 一 些 更 实际 的 问题 ， 警 如 大 型 数据 库 的 复杂 
计算 问题 。 

我 们 可 考虑 将 数组 分 为 p 个 部 分 ， 每 个 部 分 有 n/p 个 数据 ，Ceow zeop-D，GCop… 
Xp ，…，(X wp-nap…Xn -这 样 就 可 用 p 个 处 理 器 (或 进程 ) 分 别 独立 地 对 一 个 分 组 求 和 以 
获得 部 分 和 。p 个 部 分 和 需要 累加 起 来 获得 最 终 和 。 图 4-1 展 示 了 在 一 个 处 理 器 上 累加 p 个 部 分 
和 的 情况 。( 最终 相 加 可 以 使 用 一 个 树 结构 来 并 行 实现 ， 但 在 图 中 没有 表示 出 来 .) 应 注意 每 
个 处 理 器 要 访问 它 所 累加 的 每 个 数据 。 在 消息 传递 系统 中 ， 需 要 分 别 将 数据 传送 到 每 个 处 理 
器 。( 在 共享 存储 器 系统 中 ， 每 个 处 理 器 可 以 从 共享 存储 器 中 访问 它 所 需 的 数据 ， 在 这 一 点 上 ， 
共享 存储 器 系统 对 于 这 个 问题 或 类 似 的 问题 要 比 消息 传递 系统 方便 得 多 . ) 

这 个 例子 的 并 行 代码 是 很 直观 的 。 对 于 一 个 简单 的 主 从 方式 ， 数 据 首先 由 主 处 理 器 发 送 
到 各 个 从 处 理 器 ， 每 个 从 处 理 器 独立 并 发 地 将 自己 的 数据 求 和 ， 然 后 将 部 分 和 发 送 到 主 处 理 
器 ， 最 后 主 处 理 器 将 这 些 部 分 和 累加 求 得 结果 。 通 常 对 于 代码 序列 我 们 更 多 的 是 用 进程 而 不 
是 用 处 理 器 ， 在 最 佳 情况 下 ， 一 个 处 理 器 正好 对 应 一 个 进程 。 

采用 广播 的 方法 将 整个 数列 发 送 到 每 个 从 进程 或 只 给 每 个 从 进程 发 送 特定 的 数据 哪 种 情 
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况 更 好 些 仍 是 一 个 未 决 的 问题 ， 因 为 两 种 情况 下 都 需要 主 进程 发 送 所 有 的 数据 。 为 了 确定 广 
播 机 制 的 相对 优点 ， 我 们 有 必要 了 解 广播 机 制 的 特点 。 广 播 机 制 只 需要 一 个 启动 时 间 ， 这 可 
能 比 采 用 多 个 发 送 例 程 从 而 需要 多 个 独立 的 启动 时 间 要 优越 一 些 。 


Xo “Xmp}-1 Xp XC2n/p}—1 四 Xp-Dnmp Xn-l 





. 和 * 
107 图 4-1 划分 一 个 数列 并 对 每 个 部 分 求 和 
首先 ， 我 们 使 用 单独 的 发 送 函 数 send( ) 将 指定 的 数 发 送 到 各 个 从 进程 。 假 设 给 定 x 个 数 
和 p 个 从 进程 ， 其 中 n/p 是 个 整数 ， 每 一 组 分 配给 一 个 从 进程 ， 使 用 独立 的 send( ) 和 recv( ) 
的 程序 代码 如 下 : 
主 进程 
s = n/p; 


for (i = 0, x= 0; i<p; i++ X=X+S) 
send (&numbers[x], s, Pi); /* send s numbers to slave */ 


/* number of numbers tor slaves"™/ 


sum = 0; 

for (i = 0; i < pi i++) { 
recv (&part_sum, Pany); 
Sum = SUM + part_sum’; 


} 


从 进程 
recv (numbers, Ss, Pnaster)}’ /* 


part_sum = 0; . 
for (i = 0; i < s; i++) /* add numbers */ 


part_sum = part_sum + Dumbers [ij]: 
108 send (&part_sum, Pnaster)}; /* 
如 果 采 用 广播 或 多 播 例 程 将 完整 的 数列 发 送 给 每 个 从 进程 ， 则 从 进程 的 代码 需要 从 中 找 
出 需要 的 那 部 分 数据 ， 这 会 增加 从 进程 的 计算 步 ， 代 码 如 下 : 


/* wait for results from slaves */ 


/* accumlate partial sums */ 


receive s numbers from master */ 


send sum to master */ 


主 进程 
s = n/p; /* number of numbers for slaves */ 
bcast (numbers, s, Pelave_group)’ /* send all numbers to slaves */ 
Sum = 0; 
for (= 0; i < p; i++) { /* wait for results from slaves */ 
recv (&part_sum, Pany); 
Surm = Sum + part_sum; /* accummlate partial sums */ 
} 
从 进程 


bcast (numbers, Ss, Pnaster); /* receive all numbers from master*/ 





start = slave number * s; /* slave number obtained earlier */ 
end = start + s; 

part_sum = 0; 

for (i = start; i < end; i++) /* add numbers */ 


part_sum = part_sum + numberslil]; 


send(&part._ sum, Pmnaster); /* Send sum to master */ 


从 进程 由 进程 ID 来 标识 ， 这 通常 可 通过 调用 一 个 库 例 程 实 现 。 在 更 多 情况 下 首先 会 创立 一 个 
进程 组 ， 从 进程 号 是 该 组 内 的 一 个 实例 或 序号 。 当 一 个 组 中 有 mm 个 进程 时 ， 实 例 或 序号 是 一 个 
从 0 到 m-1 的 整数 。MPI 则 需要 先 建立 通信 子 ， 同 一 通信 子 内 的 进程 有 各 自 的 序号 ， 这 在 第 2 章 
中 已 有 叙述 。 组 也 可 以 并 和 一 个 通信 子 ， 此 时 进程 拥有 该 组 内 的 一 个 序号 。 

如 果 可 以 使 用 分 散 和 规约 例 程 ， 代 码 可 以 为 : 


s = n/p; /* number of numbers */ 
scatter (numbers, &s, Pygroup' root=master); /* send numbers to slaves */ 
reduce_add (&sum, &s, Pgroup, roOoOt=master); /* results from slaves */ 
从 进程 
scatter (numbers, &s, Pgroup' Toot =master); /* receive s numbers */ 

/* add numbers */ 
reduce_add (&part_sum, &s, Pgroup' root=master); /* send sum to master */ 


请 记 住 ， 在 本 书 中 将 到 处 使 用 简单 的 伪 人 代码。 分散 和 规约 (以 及 使 用 集中 例 程 时 ) 在 实 
际 应 用 中 有 很 多 附加 的 参数 ， 包 括 源 和 目的 ID。 一 般 而 言 ， 规 约 例 程 的 操作 是 以 一 个 参数 来 
指定 的 ， 而 不 是 这 里 出 现 的 例 程 名 的 一 部 分 。 使 用 参数 允许 方便 地 选择 不 同 的 操作 。 代 码 同 
样 要 为 参加 广播 、 分 散 和 规约 的 进程 建立 一 个 组 。 

虽然 我 们 这 里 是 对 数 求 和 ， 其 他 很 多 操作 也 可 以 同样 进行 。 例 如 ， 从 进程 可 以 在 分 组 的 
数 中 找 出 局 部 最 大 的 数 发 送 回 主 进 程 ， 主 进程 再 从 这 些 局 部 最 大 值 中 找 出 全 局 最 大 值 。 类 似 
地 ， 从 进程 可 以 在 该 数据 组 中 找 出 某 个 数 (或 是 字符 ， 或 是 字符 串 ) 的 出 现 次 数 ， 然 后 再 发 
送 回 主 进程 。 

分 析 

顺序 计算 需要 n-1 次 加 法 操作 ， 时 间 复 杂 性 是 O(n)。 在 并 行 实现 中 ， 有 p 个 从 进程 。 对 并 
行 实 现 的 分 析 ， 在 SPMD 模 型 中 我 们 将 假设 主 进程 的 操作 被 认为 是 从 进程 中 的 一 个 ， 因 为 在 实 
际 的 实现 中 很 可 能 是 这 样 的 。( 请 记 住 在 MPI 中 ， 在 集合 操作 中 使 用 根 进程 的 数据 。 ) 因此 ， 
处 理 器 数 是 p。 在 并 行 实现 中 我 们 的 分 析 将 始终 独立 地 考虑 通信 和 计算 。 如 果 我 们 将 操作 分 为 
不 同 的 阶段 ， 则 更 容易 形象 地 勾勒 出 整个 程序 的 过 程 。 像 大 多 数 问 题 一 样 ， 一 般 总 是 一 个 通 
信 阶 段 后 面 跟着 一 个 计算 阶段 ， 这 些 阶 段 不 断 重复 。 

阶段 1: 通信 首先， 我 们 要 考 虚 p 个 从 进程 读 取 它们 各 自 的 n/p 个 数据 的 通信 问题 。 使 用 
单个 发 送 和 接收 例 程 需要 的 通信 时 间 为 : 

1 comml = p(t sarup + (n/p) tuata) 
其 中 tm 为 传送 时 间 中 国定 的 部 分 ，1 um 是 传送 一 个 数据 字 的 时 间 。 使 用 分 散 可 以 减少 启动 
的 次 数 ， 即 : - 
fcommi = fstartup + Nf data 

它 依赖 于 分 散 的 实现 。 在 任何 情况 下 时 间 复 杂 性 仍然 是 O_ (n)。 

阶段 2: 计算 ” 接 下 来 我 们 需要 估计 计算 步 数 。 从 进程 对 n/p 个 数 求 和 ， 需 要 n/p-1 次 加 
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法 操作 。 因 为 所 有 p 个 从 进程 是 同时 运行 的 ， 因 此 我 们 可 以 认为 所 有 部 分 和 在 n/p-1 步 获得 。 
因此 ， 这 一 阶段 的 并 行 计算 时 间 为 : 
fcomp! = n/p—1 
阶段 3: 通信 使 用 单个 的 发 送 和 接收 例 程 返回 部 分 结果 需要 的 通信 时 间 为 : 
tcomm?2 = Pp (fstartvp + taata ) 
使 用 集中 和 规约 需要 的 时 间 为 : 
fcomm?2 = tstarup + Pilqata 
阶段 4: 计算 对 于 最 后 的 累加 ， 主 进程 必须 对 p 个 部 分 和 求 ， 这 需要 p~1 步 : 
toomp2 = p-—1 
总 的 执行 时 间 ”该 问题 的 总 的 执行 时 间 (使 用 发 送 和 接收 ) 是 : 
fp = (fcomm! + Lt comm2) + (fcomp! + tcomp2 ) 
=p (tstarup + (n/p) taaa) + pllstarwp + Laata) + (NH/p—1 + p-1) 
= 2pfsarup + (n+ p) taaa + p+ n/p—2 
即 ， 对 于 固定 的 处 理 器 数 有 : 


ty = O(n) 
可 以 看 到 并 行 时 间 复 杂 性 与 顺序 时 间 复 杂 性 O(n) 是 一 样 的 。 当 然 ， 如 果 我 们 只 考虑 计算 方面 ， 
并 行 模式 要 比 顺序 模式 好 。 
加 速 系数 加 速 系数 为 
n-l 


; -| 
加 速 系数 = t, 2Pkanp +t(n+ Plo +ptn/p~-2 
该 式 提示 对 于 固定 的 处 理 器 数 只 能 获得 小 的 加 速 比 。 

计算 /通信 比 ”计算 /通信 比 由 下 式 给 定 : 
计算 /通信 比 = se -一 +P-2 
1comm 2p fartup + (an +p Jiaaa 
同样 ， 对 于 固定 的 处 理 器 数 ， 该 式 再 一 次 提示 没有 多 大 的 改进 机 会 。 
忽略 通信 部 分 后 ， 加 速 系数 将 由 下 式 给 定 : 
、 一 f _ 
加 速 系数 = 全 -7 
对 于 很 大 的 x:， 加 速 比 趋向 p; 然而 对 于 较 小 的 上 ， 加 速 比 会 很 低 且 会 随 着 从 进程 的 数目 增加 而 
降低 ， 因 为 在 第 四 个 阶段 形成 最 终结 果 时 有 P-1 个 从 进程 是 空闲 的 。 
理想 情况 下 ， 我 们 希望 所 有 的 进程 在 所 有 时 间 内 都 是 活动 的 ， 但 在 这 个 问题 模式 中 是 不 
可 能 得 到 的 ; 然而 ， 另 一 种 模式 将 非常 有 帮助 的 且 可 应 用 于 广泛 的 问题 中 ， 这 就 是 我 们 接 下 
来 要 讨论 的 分 治 方法 。 


4.1.2 分 治 


分 治 方法 的 特点 是 将 一 个 问题 分 为 与 原来 的 较 大 问题 有 相同 形式 的 子 问 题 。 进 一 步 分 为 
较 小 的 问题 通常 是 通过 递归 ， 递 归 是 我 们 在 顺序 程序 设计 中 常 使 用 的 一 种 方法 。 递 归 的 方法 
会 将 问题 不 断 分 为 更 小 的 问题 直到 不 能 再 分 为 止 。 接 着 就 完成 这 些 非常 简单 的 任务 并 把 结果 
合并 ， 然 后 按 更 大 的 任务 继续 合并 ， 直 到 获得 最 终 的 结果 。[J&J4,1992] 区 别 了 在 分 割 问 题 时 
的 主要 工作 和 合并 结果 时 的 主要 工作 。 他 将 合并 结果 时 的 主要 工作 归 类 为 分 治 而 把 分 割 问题 
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时 的 主要 工作 归 类 为 划分 。 我 们 对 此 不 加 区 别 ， 但 我 们 用 分 治 这 个 术语 表示 持续 将 问题 划分 


为 更 小 的 问题 。 
对 一 个 数列 求 和 的 顺序 递归 定义 为 
int addl(int *s) /* add list of numbers, s */ 
{ 
if (number{(s) <= 2) return {nl + n2); /* see explanation */ 
else { 
Divide (s, si, s2); /* divide s into two parts, sl and s2 */ 
part_suml = add(s1); /*recursive calls to add sub lists */ 


Part_sum2 = add(s2); 
return (part_ suml + part_sum2); 
} 

} 

像 在 所 有 递归 定义 中 一 样 ， 当 分 割 不 能 再 进行 时 必须 有 一 个 方法 终止 递归 。 在 上 面 的 代码 中 ， 
numbez(s) 返 回 由 指针 s 指 向 的 数列 中 数据 的 个 数 。 如 果 只 有 两 个 数据 ， 称 它们 为 n1 和 mn2; 
如 果 只 有 一 个 数 ， 则 称 它 为 n1 并 设 n2 为 0; 如果 一 个 数 也 没有 ， 则 n1 和 nz2 都 为 0。 独 立 的 if 
语句 可 以 处 理 所 有 情况 : 数列 有 0、1 或 2 个 数 。 每 种 情况 都 可 以 结束 递归 调用 。 

这 种 方法 也 可 以 用 于 数列 的 其 他 全 局 操作 ， 例 如 寻找 最 大 值 。 还 可 以 通过 把 数列 分 割 为 
越 来 越 小 的 数列 ， 用 对 小 数列 排序 来 实现 对 大 数列 的 排序 。 归 并 排序 和 快速 排序 算法 通常 用 
于 描述 这 样 的 递归 定义 ， 参 见 [Cormen, Leiserson,and Rivest,1990]。 因 为 有 简单 的 迭代 解决 方 
案 存在 ， 实 际 上 没有 人 会 用 递归 的 方法 来 对 数列 求 和 ， 但 接 下 来 的 内 容 对 任何 用 递归 分 治 方 
法 模式 化 的 问题 都 是 适用 的 。 

当 每 次 分 割 产生 两 部 分 时 ， 递 归 分 治 模式 就 会 形成 一 棵 二 又 数 。 这 棵 树 在 发 生 调 用 时 下 
行 遍历 ， 在 返回 结果 时 上 行 遍 历 〈 对 树 的 前 序 遍 历 可 以 给 出 递归 的 定义 )。 图 4-2 中 的 〈 完 全 ) 
二 又 树 显示 了 分 冶 产生 的 “分 割 ” 部 分 ， 最 终 任 务 在 底部 ， 而 根 在 顶部 。 根 进程 首先 将 问题 
分 为 两 个 部 分 。 这 两 个 部 分 每 个 再 分 为 两 个 部 分 ， 重 复 此 过 程 直到 叶 进 程 的 位 置 ， 在 那里 完 
成 问题 的 基本 操作 。 这 种 结构 也 可 以 用 于 上 一 个 问题 ， 数 列 先 被 分 为 两 部 分 ， 然 后 是 四 部 分 ， 
直到 每 个 进程 都 有 整个 问题 的 相同 部 分 为 止 。 在 将 树 底部 的 叶 进 程 成 对 相 加 后 ， 累 加 过 程 依 
逆向 树 结构 进行 。 

图 4-2 显 示 了 一 棵 完全 二 又 树 ， 即 带 有 同一 层 上 所 有 叶 结 点 的 理想 平衡 树 。 这 种 情况 发 生 在 
一 个 任务 可 以 分 割 为 2 的 乘 方 个 子 任务 时 ， 如 果 不 是 2 的 乘 方 ， 则 会 有 一 个 或 多 个 叶 结 点 要 比 其 他 
叶 结 点 高 一 肢 。 为 方便 起 见 ， 如 果 没 有 特别 说 明 ， 我 们 都 假设 任务 可 以 分 割 为 2 的 乘 方 个 子 任务 。 

最 初 的 问题 


分 割 问题 


图 4-2 树 结 构 


日” 像 在 我 们 所 有 的 伪 代 码 中 一 样 省 略 了 实现 细节 。 例 如 ， 数 列 的 长 度 也 许 需要 作为 参数 传递 。 
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1. 并 行 实现 
112 在 顺序 实现 中 ， 一 次 只 有 一 个 树 的 结 点 可 以 被 访问 ， 并 行 方案 提供 同时 遍历 树 的 几 个 部 

分 的 前 景 。 一 旦 一 次 分 割 产 生 了 两 个 部 分 ， 这 两 个 部 分 就 可 以 同时 处 理 。 虽 然 可 以 模式 化 一 
个 递归 的 并 行 方案 ,但 不 用 递归 更 容易 对 求解 直观 化 ， 关 键 是 要 意识 到 整个 结构 是 一 个 树 结 
构 。 可 以 为 每 个 树 中 的 结 点 分 配 一 个 处 理 器 ， 最 后 需要 2”"*! -1 个 处 理 器 把 任务 分 为 2” 个 部 分 。 
因为 每 个 处 理 器 仅 在 树 的 某 一 层 中 处 于 活动 状态 ， 这 样 会 导致 一 个 效率 很 低 的 方案 (习题 4-5 
讨论 了 这 种 方法 )。 

一 个 更 有 效 的 方案 是 重用 树 中 每 层 的 处 理 器 ， 如 图 4-3 所 示 ， 其 中 使 用 了 8 个 处 理 器 。 当 
所 有 处 理 器 都 使 用 时 分 割 停止 。 在 此 之 前 ， 每 一 步 每 个 处 理 器 自己 保留 数列 的 一 半 ， 将 另 一 
半 传 送 。 首 先 Po 将 数组 的 一 半 发 送 给 Ps, 然后 Po 和 Ps 分 别 将 自己 拥有 的 数列 传送 一 半 给 Pz 和 Ps。 
最 后 ，Po、P，、P4 和 Pe 再 分 别 将 自己 拥有 的 数列 传送 一 半 给 P!、P3、Ps 和 Py;。 最 后 一 步 时 ， 每 
个 子 数列 有 n/8 个 数 。 一 般 情况 下 p 个 处 理 机 每 个 有 n/p 个 数 ， 该 树 一 共 分 为 logp 层 。 


原始 数列 





图 4-3 分 割 数列 


累加 部 分 和 的 “合并 ”过 程 可 以 如 图 4-4 所 示 进 行 。 一 旦 求 出 了 部 分 和 ， 每 个 奇数 号 的 处 
理 器 将 它 的 部 分 和 传送 给 邻近 的 偶数 号 的 处 理 器 ; 即 Pi 发 送 给 Po。，P3 发 送 给 P,，Ps 发 送 给 P4. 
以 此 类 推 。 接 着 偶数 号 的 处 理 器 将 接收 的 部 分 和 与 自己 的 部 分 和 相 加 ， 并 如 图 4-4 所 示 向 上 传 
送 ， 直 到 Po 得 出 最 终结 果 。 





最 终 和 
图 4-4 部 分 求 和 
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可 以 看 到 这 些 结构 和 描述 的 二 进 制 超 立 方 体 广播 和 集中 算法 是 一 样 的 。 这 些 结构 可 以 很 
好 地 映射 到 一 个 超 立 方 体 ， 当 然 也 可 以 应 用 到 其 他 系统 。 根 据 超 立 方 体 广 播 /集中 算法 ， 与 另 
一 台 处 理 器 通信 的 处 理 器 可 通过 它们 的 二 进 制 地 址 找到 ， 处 理 器 与 那些 地 址 与 其 地 址 有 一 位 
不 同 的 处 理 器 通信 ， 分 割 阶段 从 最 高 位 开始 ， 合 并 阶段 从 最 低位 开始 。 

假设 我 们 静态 创建 8 个 处 理 器 (或 进程 ) 来 对 数列 求 和 。 进 程 Po 的 并 行 代码 可 以 为 如 下 形式 : 

进程 P。 

/* division Phase */ 

Givide(sl, sl, s2); /* divide sl into two, si and s2 */ 

send(s2, Pa); /* send one part to another process */ 

divide(sl, sl, s2); 

send(s2, P2); 

divide(sl, si, s2); 

send(s2, Pi1}; 

Part_sum = *sl1; /* combining phase */ 

recv (&part_suml, Pi1); 

Part_sum = part_sum + part. suml; 

recv (gpart_suml, P>); 

part_sum = part_sum + part_sumil; 

recv (&part_suml, Pa); 

part_sum = part_ sum + part_sumi; 


进程 Ps 的 代码 可 能 采用 如 下 形式 : 

进程 让 

recv(sl, Po); /* division phase */ 
divide(s1l, sl, s2); 

send(s2, Pe); 

divide(sli, sl, s2); 


send{(s2, Ps); 11 
part_sum = *S1; /* combining phase */ 


心 


recv(&part suml, Ps); 
part_sum = part_sum + part_sumil; 
recv (&part_suml, Pe); 
part_sum = part_sum + part_suml; 
send (&part_sum, Po); 
其 他 进程 的 代码 类 似 。 显 然 ， 其 他 相关 的 运算 ， 例 如 减法 、 
逻辑 或 、 逻 辑 与 、 最 小 、 最 大 或 字符 串 并 置 ， 都 可 以 替代 上 例 中 
的 加 法 运算 。 这 种 思想 也 可 应 用 于 求 操作 数 与 算术 操作 符 相连 接 (oR) 
的 算术 表达 式 ， 树 结构 也 可 用 于 搜索 等 操作 。 在 这 种 情况 下 ， 上 ”找到 /未 找 到 
传 的 信息 是 一 个 布尔 符号 ， 用 以 表示 指定 的 项 或 条 件 是 否 找到 。 
此 时 在 每 个 结 点 执行 的 是 或 操作 ， 如 图 4-5 所 示 。 (or) (oR) 
2. 分 析 
我 们 假设 4 是 2 的 乘 方 ， 为 简单 起 见 不 考虑 通信 的 启动 时 间 ”图 4-5 搜索 树 的 一 部 分 
Lstartup » 后 面 以 习题 形式 给 出 考虑 fsanw 的 情况 。 
如 有 果 我 们 认为 把 数列 分 为 两 部 分 只 需要 很 少 的 计算 ， 则 分 割 阶段 实际 上 只 包括 通信 。 合 
并 阶段 包括 计算 和 通信 来 完成 对 所 接收 到 的 部 分 和 求 和 以 及 传送 结果 。 、 
(1) 通信 ”分割 阶段 需要 对 数 步 数 ， 即 p 个 进程 需要 logp 步 。 这 一 阶段 的 通信 时 间 由 下 式 
给 出 : 
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了 

2 4 8 p p 
其 中 tgaw 为 传送 一 个 数据 字 所 需 的 时 间 。 时 间 tcommt 要 比 一 个 简单 的 广播 稍 好 些 。 合 并 阶段 类 似 ， 
只 是 每 个 消息 (部 分 和 ) 中 仅 有 一 个 数据 项 要 传送 ， 即 : 


fcomm2 = (log p) fdata 


t 


总 的 通信 时 间 为 : 
nmp-D 





I = 


comm comml 十 fomm? ~ 


Loata + (log Pasa 
当 p 为 常数 时 ， 时 间 复 杂 性 为 O (n)。 
(2) 计算 分 割 的 最 后 需要 把 n/p 个 数 相 加 。 合 并 阶段 每 步 执 行 一 次 加 法 ， 得 到 : 


n 
foom =—+logp 
p 


comp 


同样 当 p 为 常数 时 ， 时 间 复 杂 性 为 O (n)。 对 于 大 的 x 和 可 变 的 p， 时 间 复 杂 性 为 O (n/p)。 
(3) 总 的 执行 时 间 总 的 并 行 执行 时 间 为 : 


1, = (opje + 工 +logp 
p p 
(4) 加 速 系数 加 速 系数 为 : 
t n-l 


加 速 系数 = 二 = 一 一 一 一 一 一 一 一 一 一 一 一 一 
\ t, (n/p\p-l)+logp)twa tn/p+logp 
当 全 部 p 个 处 理 器 都 在 计算 它们 的 部 分 和 时 ， 用 这 种 方法 我 们 所 期 望 的 最 好 的 加 速 比 当然 是 p， 
但 由 于 有 分 割 和 合并 阶段 ， 实 际 的 加 速 比 比 p 小 。 
(5) 计算 /通信 比 ”计算 /通信 比 由 下 式 给 出 : 


计算 /通信 比 = km -mn/pt+logp 
[omm ((n / pp 一 1) + log DP) 





4.1.3 ”MM 路 分 治 


分 治 策略 也 可 以 应 用 于 将 一 个 任务 在 每 一 步 分 为 多 个 (大 于 两 个 ) 部 分 的 情况 。 例 如 ， 
如 果 一 个 任务 每 次 分 为 四 个 部 分 ， 顺 序 递归 定义 应 为 : 
int add (int *s) /* add list of numbers, s */ 


{ 
if (number(s) =< 4) return(nl + n2 + n3 + n4); 


else { 
Divide (s,sl1,s2,s3,s4); /* divide s into sl,s2,s3,s4*/ 
part_suml = addl(sl1); /*recursive calls to add sublists */ 


part_sum2 = add(s2); 
part_sum3 = add(s3); 
part_sum4 = add(s4); 
return (part_suml + part_ sum2 + part_sum3 + part_sum4); 
} 
} 


图 4-6 显 示 了 一 棵 每 个 结 点 有 四 个 孩子 的 树 ， 称 为 四 又 树 。 四 又 树 在 分 解 二 维 区 域 为 四 个 
子 区 域 中 有 特殊 的 应 用 。 例 如 ， 一 幅 数字 化 的 图 像 可 以 分 为 四 个 象限 ， 每 个 象限 再 进一步 分 
为 四 个 子 象限 ， 以 此 类 推 ， 如 图 4-7 所 示 。 八 叉 树 是 每 个 结 点 有 八 个 孩子 的 树 ， 用 于 解决 递归 
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地 分 割 三 维 空间 的 问题 。 如 果 每 次 分 割 产生 m 部 分 就 可 以 形成 m 又 树 ( 即 每 个 结 点 有 mm 个 孩子 )， 
随 着 m 的 增 大 ， 并 行 度 也 增 大 ， 因 为 有 更 多 的 部 分 可 以 同时 考虑 。 这 样 的 问题 将 留 作 习题 ， 让 
读者 自己 推导 计算 时 间 和 通信 时 间 的 公式 (习题 4-7)。 





根 
图 像 区 域 
第 一 次 分 割 
成 四 个 部 分 
第 二 次 分 割 
图 4-6 四 又 树 图 4-7 分 割 一 幅 图 像 


4.2 分 治 技术 举例 
4.2.1 使 用 桶 排序 法 排序 


现在 假设 问题 不 是 简单 地 对 数列 求 和 ， 而 是 将 它们 排序 。 有 很 多 情况 需要 对 数据 排序 ， 而 
在 顺序 程序 设计 的 课程 中 花费 很 多 时 间 在 开发 数 排序 的 方法 上 。 顺 序 排 序 算法 大 多 数 都 是 基 
于 数 对 的 比较 和 交换 ， 我 们 将 在 第 10 章 中 讨论 如 何 将 这 些 经 典 顺序 算法 并 行 化 。 现 在 我 们 先 
讨论 一 种 称 为 桶 排序 的 算法 。 桶 排序 不 是 基于 比较 和 交换 的 ， 它 实质 上 是 一 种 划分 方法 。 如 
果 原 始 的 数 是 在 一 个 已 知 的 间隔 内 均匀 分 布 时 ， 桶 排序 本 有 良好 的 效果 ， 这 个 间隔 我 们 设 它 
为 0 到 a~1。 把 这 个 间隔 平均 分 为 m 个 区 域 ， 即 0 到 a/m-1、a/m 到 2a/m-1、2a/m 到 3a/m-1,，… [117 
且 分 配 一 个 “ 桶 ”来 保存 落 在 为 每 个 区 域内 的 数 ， 这 样 共 有 m 个 桶 ， 这 些 数 仅 是 简单 地 放 在 对 
应 的 桶 中 。 当 然 可 以 为 每 个 数 分 配 一 个 桶 ( 即 m = n)， 另 外 也 可 以 使 用 分 治 的 方法 不 断 地 将 
桶 分 割 为 更 小 的 桶 。 如 果 此 过 程 以 这 种 方式 持续 到 每 个 桶 中 只 有 一 个 数 ， 那 么 该 方法 就 很 类 
似 于 快速 排序 ， 不 同 之 处 是 快速 排序 将 区 域 分 割 成 由 “ 枢 轴 (或 支点 )”(pivots) 定义 的 区 域 
(参见 第 10 章 )。 这 里 ， 我 们 将 使 用 有 限 数 目的 桶 。 每 个 桶 中 的 数 将 使 用 一 种 顺序 排序 算法 ， 
如 图 4-8 所 示 。 

未 排序 的 数 


桶 的 排序 内 容 
妇 并 数列 





已 排序 的 数 
图 4-8 桶 排序 


oo 
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1. 顺序 算法 

要 将 一 个 数 放 入 指定 的 桶 中 需要 识别 这 个 数 所 属 的 区 域 。 实 现 这 一 点 的 一 个 方法 是 将 这 
个 数 与 区 域 涉 做 比较 ， 即 a/m、2a/m、3a/m、… 在 顺序 计算 机 中 这 需要 对 每 个 数 进行 m~1 次 比 
较 。 更 有 效 的 方法 是 使 用 m/a 来 除 这 个 数 ， 并 用 得 到 的 结果 识别 0 到 m-1 个 桶 ， 这 样 每 个 数 只 
需要 一 个 计算 步 (尽管 做 除法 需要 较 多 的 时 间 )。 如 果 m/a 是 2 的 乘 方 ， 则 只 需要 简单 察看 这 个 
数 以 二 进 制 表示 时 的 高 位 几 位 。 例 如 车 m/a = 23 (= 8)， 而 一 个 数 的 二 进 制 表示 为 1100101， 考 
虑 最 高 3 位 ， 它 应 该 落 入 区 域 110(6)。 在 任何 情况 下 ， 让 我 们 假设 把 一 个 数 放 入 某 个 桶 中 只 需 
要 一 步 ， 因 此 放置 "个 数 需要 mn 步 。 如 果 数 是 均匀 分 布 的 ， 则 每 个 桶 中 大 致 应 该 有 za/m 个 数 。 

接 下 来 必须 对 桶 中 的 数 排序 ， 顺 序 排序 算法 如 快速 排序 或 归并 排序 对 z 个 数 排序 的 时 间 复 
杂 性 为 O (nlogn) (快速 排序 的 平均 时 间 复 杂 性 )。 任 何 比较 和 交换 排序 算法 的 下 界 大 致 就 是 
nlogn 次 比较 [Aho，Hopcroft，and Ullman，1974]。 让 我 们 假设 顺序 排序 算法 的 确 需 要 nlogn 次 
比较 ， 一 次 比较 被 视 作 一 个 计算 步 。 因 此 ， 使 用 这 些 顺 序 排序 算法 对 每 个 桶 中 mm 个 数 进行 排 
六 需要 (za log (n/m) 步 。 排 好 顺序 的 数 需 要 拼接 为 一 个 最 终 的 已 排序 数列 ， 我 们 假设 这 个 
拼接 过 程 不 需要 附加 的 步 。 综 合 以 上 过 程 ， 顺 序 时 间 为 : 

二 三 天 十 7Mi (n/m) log (n/m)) = n+ nlog (n/m)=O (nlog (n/m)) 

如 果 n = km，k 是 一 个 常数 ， 时 间 复 杂 性 为 O (n)。 注 意 ， 这 比 上 顺序 的 比较 和 交换 排序 算法 
的 下 界 要 好 很 多 ,但 是 要 求 数 是 均匀 分 布 的 。 

2. 并 行 算法 

显然 ， 为 每 个 桶 分 配 一 个 处 理 器 就 可 以 并 行 化 桶 排序 算法 ， 这 将 使 上 面 公式 中 第 二 项 在 
有 P 个 处 理 器 时 缩减 为 (n/p) log (n/p) (其 中 p = m)。 这 种 实现 方法 如 图 4-9 所 示 。 在 这 个 实现 中 ， 
每 个 处 理 器 要 检查 每 一 个 数 ， 因 此 会 耗费 很 多 操作 。 如 果 在 向 桶 中 放 数 据 时 同时 从 数列 将 其 
删除 ( 即 数 据 真 的 被 取 走 )， 则 这 些 数 就 不 会 被 别 的 处 理 器 考虑 ， 从 而 可 改进 算法 的 实现 。 


未 排序 的 数 





已 排序 的 数 
图 4-9 一 种 桶 排序 的 并 行 算法 


如 采 将 数列 划分 为 m 个 区 域 ， 并 为 每 个 区 域 分 配 一 个 处 理 器 ， 就 可 以 进一步 并 行 化 这 个 算 
法 。 每 个 处 理 器 都 有 P 个 “小 ” 桶 ， 并 将 自己 区 域 中 的 数 分 离 到 这 些小 桶 中 。 最 后 这 些小 桶 的 
数据 “ 倒 ” 入 p 个 最 终 的 桶 完成 排序 ， 这 需要 每 个 处 理 器 向 其 他 所 有 处 理 器 各 发 送 一 个 小 桶 
( 桶 i 对 应 处 理 器 i)。 总 体 的 算法 如 图 4-10 所 示 ， 注 意 这 种 方法 是 一 个 简单 的 划分 方法 ， 在 这 种 
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方法 中 完成 划分 只 需要 最 少 的 工作 量 。 
2 个 数 未 排序 的 数 





已 排序 的 数 
图 4-10 并 行 桶 排序 


该 算法 需要 下 列 阶段 : 

(1) 划分 数据 

(2) 排序 到 小 桶 中 

(3) 发 送 到 大 桶 中 

(4) 对 大 桶 中 的 数据 排序 

阶段 1: 计算 和 通信 第 1 步 向 每 个 处 理 器 发 送 数组 。 标记 一 个 数组 到 划分 中 可 在 固定 时 
间 内 完成 。 在 总 的 计算 时 间 中 该 时 间 将 被 忽略 。 比 起 先进 行 划 分 然后 向 每 个 处 理 器 发 送 一 个 
划分 的 方法 ， 简 单 地 向 每 个 处 理 器 广播 所 有 数 并 由 各 个 处 理 器 进行 它 自己 的 划分 是 一 个 更 为 
有 效 方案 。( 采 用 这 种 方法 时 必须 保证 所 创建 的 每 个 划分 是 分 离 的 ， 但 划分 的 合成 应 包含 所 有 
的 数 。) 当 使 用 一 个 广播 或 分 散 例 程 时 ， 则 包含 启动 时 间 在 内 的 通信 时 间 为 : 

{comm! = {startup + Nf data 
阶段 2: 计算 将 含有 n/p 个 数 的 每 个 划分 分 离 到 p 个 小 桶 需要 的 时 间 : 
fcomp2 = n/p 

阶段 3: 通信 接 下 来 对 小 桶 进行 分 配 。( 阶 段 3 没 有 计算 。) 每 个 小 桶 中 有 n/pP? 个 数 (假设 
均匀 分 布 )。 每 个 进程 必须 把 ~ 1 个 小 桶 中 的 内 容 发 送 到 其 他 所 有 进程 (一 个 为 自己 的 大 桶 而 
保留 的 梢 )。 由 于 2 个 进程 中 的 每 个 进程 都 要 向 别 的 进程 发 送 ， 如 果 通 信 在 时 间 上 不 能 重 釜 ， 
且 必 须 单个 地 调用 sena( ) ， 则 通信 和 时 间 为 : 

tcomms = p( p—1) (tsarup + (WP2) Laat ) 
上 面 的 公式 是 这 个 通信 阶段 所 用 时 间 的 上 界 。 如 果 所 有 通信 都 可 以 重 又 ， 则 得 到 通信 时 间 的 
下 界 为 : 
{ecomm3 = ( p~1) (fsarop + (nf p?) taara ) 

实际 上 ， 每 个 处 理 器 都 会 和 其 他 所 有 处 理 器 通信 ， 因 此 考虑 一 个 “全 部 到 全 部 ”的 机 制 比较 
适合 。 “全 部 到 全 部 ” 例 程 会 将 每 个 进程 的 数据 发 送 到 其 他 所 有 进程 ， 如 图 4-11 所 示 。 这 种 例 
程 在 MPI 中 是 可 用 的 (MPI_Alltoall())， 这 种 实现 比 单个 使 用 send( ) 和 recv( ) 更 为 有 
效 。“ 全 部 到 全 部 ” 例 程 实际 上 会 将 数组 的 行 传送 到 列 中 ， 如 图 4-12 所 示 (因此 实际 上 完成 了 
矩阵 的 转 置 ， 参 见 10.3.1 节 )。 


一 
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进程 0 





进 进程 0 进程 p-2 
第 1 个 元 素 最 后 一 个 元 素 
图 4-11 “全 部 到 全 部 ”广播 
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四 四 四 四 殉葬 园 四 
四 四 四 四 下葬 四 四 


图 4-12 对 数组 执行 “全 部 到 全 部 ”操作 的 效果 


阶段 4: 计算 在 最 后 一 个 阶段 中 ， 同 时 对 大 桶 排序 。 因 为 每 个 大 桶 中 有 n/p 个 数据 ， 所 以 
tcomp4 = (n/p) log (n/p) 
总 的 执行 时 间 ”包含 通信 在 内 的 总 的 运行 时 间 为 : 
ty = toomm! + teomp2 + tcomm3 + fcomp4 
ty = tstarup + nlaaa + n/p + (p—1) (fsarup + (nf p?) taaa) +(n/p) log(n/p) 
= (n/p) (1 + log (n/p)) + ptsanwp + (n+ (p—1) (n/p?)) taata 
加 速 系数 ” 当 与 顺序 桶 排序 比较 时 ， 加 速 系数 为 : 
、 二 在 n+nlog(n/m) 
加 速 系数 ~ 二 = jG +io8(n/ PD) + pe + (nt CD Dn pe 
实际 的 加 速 系数 公式 由 上 式 定 义 ， 其 中 i; 是 最 好 的 顺序 算法 的 求解 时 间 。 使 用 比较 和 交换 
操作 以 及 不 要 求 序列 分 配 或 专门 特征 的 顺序 排序 算法 的 下 限 是 nlogn 步 。 可 是 桶 排序 有 更 好 的 
下 限 并 用 作 *， 但 需 假设 数 是 均匀 分 布 的 。 
计算 /通信 上 比 ”计算 /通信 比 由 下 式 给 出 : 
计算 /通信 比 = omp _ (n/p)1 + log(n/p)) 
tomm Plusnup + (n+(p—1)(n/p’ to 
获得 以 上 公式 的 前 提 是 假设 数 是 均匀 分 布 的 。 如 果 要 排序 的 数 不 是 均匀 分 布 的 ， 则 有 一 
些 桶 中 的 数 要 比 另 一 些 桶 中 的 多 ， 对 数 多 的 桶 中 的 数 排序 将 决定 总 的 计算 时 间 ， 最 坏 的 情况 
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是 所 有 数 都 在 一 个 桶 中 。 
4.2.2 数值 积分 


前 面 我 们 讨论 了 分 割 一 个 问题 并 求解 每 个 子 问题 ， 问 题 被 假设 为 分 割 成 相等 大 小 的 部 分 ， 
并 使 用 了 简单 的 划分 技术 。 有 时 候 简单 的 划分 不 能 得 到 最 优 解 ， 特 别 是 当 每 个 部 分 的 工作 量 
难以 估计 的 时 候 。 例 如 桶 排序 仅 在 每 个 区 域 中 数 的 个 数 大 致 相同 时 才 有 较 好 的 效果 。!( 桶 排序 
可 以 被 修改 用 于 等 化 工作 。) 

通用 的 分 治 技术 将 区 域 连 续 地 分 割 为 更 小 的 部 分 ， 并 使 用 最 优化 函数 来 决定 特定 区 域 何 
时 被 充分 地 分 割 。 让 我 们 来 看 一 个 不 同 的 例子 ， 数 值 积分 : 

7 = rp 
要 对 这 个 函数 积分 (如 计算 曲线 下 区 域 的 面积 )， 我 们 可 将 该 区 域 分 割 为 独立 的 部 分 ， 每 个 部 分 
由 一 个 独立 的 进程 来 计算 。 每 个 区 域 的 面积 可 
以 用 一 个 和 矩形 来 估算 ， 如 图 4-13 所 示 ， 其 中 
f 四 ) 和 f (9) 是 矩形 两 边 的 高 度 ，6 是 宽度 ( 间 


陋 )。 整 个 积分 可 以 由 从 a 到 b 的 矩形 区 域 的 和 - | 
来 估算 。 更 好 的 估计 是 将 矩形 对 齐 ， 使 得 矩形 
上 边 的 中 点 落 在 函数 的 曲线 上 , 如 图 4-14 所 示 。 flq) 
a 二 一 b x 
p 6 39 


Ax) 


这 样 构造 的 好 处 在 于 中 点 两 边 的 误差 趋向 抵 
消 。 另 外 一 种 更 明显 的 构造 是 利用 垂直 线 与 国 
数 的 交点 来 创建 梯形 区 域 ， 如 图 4-15 所 示 。 现 
在 每 个 区 域 的 计算 为 2 (了 (p) + 了 (q))6。 这 种 图 4-13 ”用 矩形 进行 数值 积分 
使 用 值 的 线性 组 合 求 定 积分 的 数值 估算 方法 称 


为 求 积 法 (quadrature method )。 
b x a > b x 


Dd 
Pa 
~ 人 人】 
中 
p 6 a p 6 9 


图 4-14 ”用 更 精确 的 矩形 进行 数值 积分 图 4-15 用 梯形 进行 数值 积分 


fx) 


fg) 





1. 静态 分 配 

让 我 们 考虑 梯形 法 (trapezoidal method)。 在 开始 计算 之 前 ， 为 计算 每 个 区 域 静态 分 配 一 
个 进程 。 通 过 使 间隔 越 来 越 小 ， 我 们 会 逐步 接近 实际 的 求解 值 。 

因为 每 个 部 分 的 计算 形式 都 是 相同 的 ， 故 使 用 SPMD (单程 序 多 数据 ) 模型 比较 合适 。 假 
设 我 们 使 用 编号 为 0 到 p-1 的 p 个 进程 对 从 x = a 到 x = b 的 区 域 面积 求 和 ， 每 个 进程 计算 的 区 域 
范围 为 (b-a)/p。 要 按 所 述 方 式 计算 面积 ，SPMD 的 伪 代 码 段 为 : 


[5] 
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进程 记 
if (i == master) { /* read number of intervals required */ 
printf (“Enter number of intervals "); 
scanf (%d”, &n); 
} 
bcast (&n, Pgroup); /* broadcast interval to all processes */ 
region = (b - a})/p; /* length of region for each Procegss */ 
Start = a + region * i; /* starting x coordinate for process */ 
end = start + region; /* ending x coordinate for Brocess */ 
d= (b - a)/n; /* size of interval */ 
area = 0.0; 
for (x = start; x < end; x = x + d) 
area = area + 0.5 * (f(x} + f(x+d)) * d; 
reduce_add (&integral, &area, Pyroup); /* form sum of areas */ 
规约 操作 将 单个 进程 计算 所 得 的 面积 求 和 。 为 提高 计算 效率 ， 计 算 每 个 区 域 面 积 的 代码 
最 好 写成 : 


area = 0.0; 

for (x = start; x < enG; x = XxX+ dd) 
area = area + f(x) + f(x+d); 

area = 0.5 * area * d; 


在 上 面 的 代码 中 ， 我 们 假设 变量 area 不 超过 允许 的 最 大 值 ( 这 种 变化 的 一 个 不 利之 处 )。 要 
进一步 提高 效率 ， 我 们 采用 如 下 的 代数 处 理 来 简化 计算 : 
面积 = SCO+ atr5) dflaro)+ f(a+25) .dCf(at(n- D5)+ f(b) 
2 2 2 


-5ST + flar)+ flar2d) r+ flartn- D5)+ £0) 
给 定 ? 个 间隔 ， 每 个 间隔 的 宽度 为 5， 一 种 实现 将 对 每 个 进程 处 理 的 区 域 使 用 这 一 公式 : 


area = 0.5 * (f(start) + ffendq) ) 

for (X= start + d; x < end; x=x+d) 
area = area + f(x); 

area = area * d; 


2. 自 适 应 积分 

如 有 果 预 先知 道 能 够 得 出 足够 精确 解 的 间隔 的 大 小 5， 则 到 目前 为 止 上 面 所 用 各 种 的 方法 效 
果 都 不 错 。 我 们 还 假设 了 在 整个 区 域 中 间隔 大 小 是 固定 的 。 如 果 合适 的 间隔 是 未 知 的 ， 就 需 
要 用 某 种 迭代 求 收敛 解 。 例 如 我 们 可 以 从 某 个 间隔 开始 ， 并 逐步 减 小 它 ， 直 到 获得 足够 精确 
的 近似 值 。 这 也 就 是 说 整个 面积 将 使 用 不 同 的 间隔 计算 ， 所 以 我 们 不 能 像 上 面 的 例子 中 那样 
简单 地 将 整个 区 域 分 割 为 固定 数目 的 子 区 域 。 

一 种 方法 是 将 每 个 进程 的 间隔 数 不 断 翻 倍 ， 直到 连续 两 次 获得 的 近似 值 足够 接近 . 树 结 
构 可 以 用 来 分 割 区 域 ， 树 的 深度 受 可 用 的 进程 /处 理 器 的 数目 限制 。 在 我 们 的 例子 中 ， 树 可 能 
随 区 域 精确 度 的 增加 以 不 对 称 的 形式 生长 ， 足 够 接近 (sufficiently close) 将 依赖 应 用 程序 和 
算术 计算 的 精确 度 。 

另外 一 种 终止 计算 的 判定 方法 是 使 用 三 个 面积 4、B 和 C ， 如 图 4-16 所 示 。 当 算得 的 4 或 
中 最 大 的 那个 区 域 的 面积 足够 接近 其 他 两 个 区 域 的 面积 之 和 时 计算 终止 。 例 如 ， 如 果 有 的 面积 
是 最 大 的 ， 当 8 的 面积 足够 接近 4 和 C 的 面积 之 和 时 计算 终止 。 另 外 我 们 也 可 以 简单 地 在 C 的 面 
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积 足 够 小 时 终止 计算 。 这 样 的 方法 称 为 自 适 应 积分 (adaptive quadrature ) ， 因 为 解 随 曲线 的 形 
状 改变 。( 可 以 推出 自 适应 积分 的 简化 公式 ， px， 
参见 [Freeman and Phillips，1992])。 

计算 变化 惕 的 曲线 下 区 域 的 面积 比 计算 变 
化 快 的 曲线 下 区 域 的 面积 所 用 时 间 短 ， 间 隔 宽 
度 5 随 间隔 变化 。 其 结果 是 固定 的 进程 任务 分 
配 将 不 能 最 有 效 的 利用 处 理 器 。 使 用 3.2.2 节 中 
所 描述 的 负载 平衡 技术 较为 适合 ， 我 们 将 在 第 
7 章 中 对 负载 平衡 做 进一步 讨论 。 要 指出 的 是 
在 选择 何 时 终止 时 要 谨慎， 例如 图 4-17 中 的 国 
数 曲 线 可 能 会 让 我 们 过 时 终止 计算 ， 因 为 两 个 
大 区 域 的 面积 是 相等 的 (如 ，C =0)。 


4.2.3 N 体 问题 


另 一 个 利用 分 治 优势 的 求解 问题 是 N 体 问 
题 。N 体 问题 是 研究 物体 之 间 相 互 作用 力 产 生 
的 效果 的 问题 (例如 天 体 间 通 过 引力 相互 吸 
引 )。 其 他 领域 的 N 体 问题 包括 分 子 动力 学 和 
流体 动力 学 。 我 们 将 以 天 体系 统 为 例 来 讨论 这 
个 问题 ， 尽 管 这 些 技术 也 同样 应 用 于 其 他 应 用 四 
问题 。 我 们 提供 基本 的 等 式 使 该 应 用 可 以 作为 图 4-17 错误 终止 的 自 适应 积分 结构 125 
一 个 编程 练习 来 编码 ， 对 图 形 输出 有 兴趣 的 话 可 以 使 用 与 第 3 章 中 求解 螺 德 勃 罗 特 问题 相同 的 
图 形 例 程 。 

1. 引力 AN 体 问题 

这 个 问题 的 目标 是 确定 太空 中 通过 引力 相互 作用 的 天 体 (如 行星 ) 的 位 置 和 运动 ， 可 以 
使 用 的 物理 知识 是 牛顿 定律 。 质 量 为 m4 和 ms 的 两 个 天 体 相 互 间 的 引力 由 下 式 给 出 : 


Fe Gm m, ， 
本 2 


其 中 G 是 引力 常数 ,，r 是 天 体 间 的 距离 。 我 们 可 以 看 到 引力 被 描述 为 一 个 与 距离 的 平方 成 反比 
的 定律 、 也 就 是 说 ， 两 个 天 体 间 的 引力 与 Ur? 成 正比 ，r 是 天 体 间 的 距离 。 每 个 天 体 都 会 依据 
这 个 定律 受 其 他 天 体 的 影响 ， 所 有 力 都 会 被 累加 (要 考虑 每 个 力 的 方向 )。 在 受 力 的 情况 下 ， 
一 个 天 体 将 根据 牛顿 第 二 定律 加 速 : 





F=ma 

其 中 是 天 体质 量 ,，F 是 天 体 所 受 的 力 ，a 是 得 到 的 加 速度 。 因 此 ， 所 有 天 体 都 会 由 于 这 些 力 
的 作用 移动 到 新 的 位 置 并 获得 新 的 速度 。 要 得 到 精确 的 数值 描述 ， 需 要 使 用 微分 方程 ( 即 F = 
mdv/dt， 和 而 v = dx/dt)。 然 而 ， 对 于 超过 三 个 天 体 的 系统 的 N 体 问题 还 没有 确切 的 近似 解 。 

使 用 计算 机 模拟 时 ， 我 们 使 用 特定 时 间 的 值 ，t6。、t!、t 等 等 ， 时 间 间 隔 取 得 尽 可 能 短 以 
获得 最 精确 的 解 。 不 妨 设 时 间 间 隔 为 At， 则 对 于 一 个 质量 为 m 的 特定 天 体 ， 其 所 受 力 为 : 
m(v"" — vy’) 

Ai 


F= 
新 的 速度 为 : 





vv 
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vy! = vy' + FAt 
m 


其 中 v* :为 天 体 在 时 刻 上 + 1 的 速度 ，v' 为 天 体 在 时 刻 的 速度 。 如 果 天 体 以 速度 v 移 动 了 At 时 间 ， 
则 位 置 的 变化 为 : | 
xX+l—x! = vA 

其 中 x 是 天 体 在 时 刻 的 位 置 。 一 旦 天 体 移 动 到 新 的 位 置 ， 所 受 的 力 就 会 发 生变 化 ， 计 算 过 程 
也 要 重复 。 

在 一 个 时 间 间 隔 Ax 内 的 速度 实际 上 并 不 是 一 个 准确 的 常数 ， 因 此 得 到 的 仅 是 一 个 近似 解 。 
使 用 “ 峙 跳 ” 式 计算 是 很 有 帮助 的 ， 这 种 方法 交替 计算 速度 和 位 置 ， 即 : 
+112 _ v2) 


At 


pr -mY 


和 . 
XI+1 一 好 一 VI+L2Ar 
其 中 ， 位 置 在 上 :+ 1、t+ 2 等 时 刻 计算 ， 速度 在 t+ 112、! + 3/2、! + 5/2 等 时 刻 计 算 。 
(1) 三 维 空 间 由 于 天 体 是 位 于 三 维 空间 ， 所 有 的 值 都 是 矢量 ， 必 须 被 分 解 到 三 个 方向 zx、 
y 和 z 方 向 。 在 一 个 坐标 系统 为 (x，y，z) 的 三 维 空间 中 ， 位 于 (xs。，ys。，zs) 的 天 体 和 位 于 
(Xx, yp, 26) 的 天 体 间 的 距离 为 : 


ro x +, -y+(2, -2,) 
力 在 三 个 方向 分 解 ， 使 用 以 下 公式 : 
_ Gmm, {Xo -Xo) 
\ 





F = 
x r2 r 


FP = Cam (YoYe) 
> r2 \ r 
F -Cram (Zo za) 
r 

其 中 ， 天 体 的 质量 分 别 为 ms 和 ms ， 华 标 分 别 为 《xo，ys。，zs。) 和 (%%p，y。，zo )。 最 后 就 可 以 
计算 新 的 位 置 和 速度 ， 速 度 也 可 以 在 三 个 方向 上 分 解 。 为 简单 起 见 ， 我 们 假设 三 维 空间 有 固 
定 的 边界 。 当 然 ， 实 际 上 字 宙 是 无 限 伸展 的 ， 并 无 固定 边界 | 

(2) 其 他 应 用 ”虽然 以 上 我 们 讨论 的 是 天 体 ， 同 样 的 概念 也 可 以 应 用 到 其 他 情形 。 例 如 ， 
带电 粒子 同样 相互 作用 ， 这 时 将 遵循 库仑 静电 定律 (也 是 一 个 与 距离 平方 成 反比 的 定律 )， 带 
异种 电荷 的 粒子 相互 吸引 ， 带 同 种 电荷 的 粒子 相互 排斥 。 这 个 问题 与 天 体 问 题 微 妙 的 不 同 之 
处 在 于 带电 粒子 会 互相 远离 ， 而 天 体 只 会 相互 靠近 形成 铸 。 


2. 顺序 代码 
总 的 引力 N 体 计算 可 以 由 以 下 算法 描述 : 
for {(t = 0; t < tmax; t++) { /* for each time period */ 
for {i = 0; i < NN; i++) { /* for each body */ 
F = Force routine(i); /* compute force on ith body */ 
Vlilnew = V[i] +F*dAdt/m; /* compute new velocity and 
X[ijnew = X[i] + Vv[ijnew * dt; /* new position (leap-frog) */ 
} 
for (i = 0; i < N; i++) { /* for each body */ 


x[i] = x[ilnew; /* update velocity and position*/ 





v[il = v[ijnew; 
} 
} 


3. 并 行 代码 

对 顺序 算法 代码 并 行 化 可 以 使 用 简单 的 划分 ， 每 个 处 理 器 对 应 物体 组 ， 每 个 力 由 处 理 器 
间 的 独立 消息 “承载 "， 但 这 样 会 产生 大 量 消息 。 这 是 一 个 O(N? ) 的 算法 〈 对 于 一 次 迭代 )，N 
个 物体 每 个 都 受 其 他 N-1 个 物体 的 影响 。 对 于 NN 比较 大 的 大 多 数 有 趣 的 N 体 问题 使 用 这 个 直接 
的 算法 是 不 可 行 的 。 

通过 简单 观察 ， 一 簇 远 距 离 物 体 可 以 大 略 地 作为 一 个 和 化 的 总 质量 位 于 该 得 物 体重 心 的 单 
个 远 距 离 物 体 ， 如 图 4-18 所 示 ， 而 且 这 种 和 焦化 思想 可 以 递归 使 用 。 


一 ~、 = 3 
ee 质量 的 中 心 
. 


. I 
ee ®/ 


远 距 离 物 体 镶 





图 4-18 铸 化 远 距离 的 物体 


Barnes-Hut 算 法 ”一 种 应 用 簇 思想 的 更 加 聪明 的 分 治 模 式 是 将 整个 空间 看 作 一 个 包含 物 
体 (或 粒子 ) 的 立方 体 。 首 先 ， 我 们 将 这 个 立方 体 分 割 为 八 个 子 立 方 体 ， 如 果 某 个 子 立方 体 
不 包含 物体 ， 则 在 下 一 步 郑 虑 前 将 它 删 除 ， 如 果 某 个 子 立 方 体 包含 超过 一 个 的 物体 ， 则 将 它 
递归 分 割 为 多 个 只 含 一 个 物体 的 子 立 方 体 。 这 个 进程 将 创建 一 棵 八 又 树 ， 即 每 个 结 点 都 有 八 
条 边 的 树 ， 树 的 叶子 表示 只 含 一 个 物体 的 单元 。( 我 们 假设 原始 空间 是 一 个 立方 体 ， 因 此 可 以 
实现 每 个 层次 上 的 递归 ， 当 然 也 可 以 使 用 别 的 假设 。) 
对 于 二 维 问题 ， 每 次 递归 子 分 割 将 创建 四 个 子 区 域 和 一 棵 四 又 树 〈 每 个 结 点 有 四 条 边 ， 
参见 4.1.3 节 )。 一 般 而 言 ， 产 生 的 树 将 会 非常 不 对 称 。 图 4-19 显 示 了 二 维 空间 的 分 解 (比较 容 
易 画 ) 和 产生 的 四 又 树 。 三 维 空间 的 情况 遵循 同样 的 结构 ， 只 是 每 个 结 点 将 会 有 八条 边 。 


子 分 割 方向 





部 分 四 又 树 
图 4-19 二 维 空间 的 递归 分 割 
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在 Barnes-Hut 算 法 [Barnes and Hut，1986] 中 ， 当 树 构建 好 后 ， 子 立方 体 总 的 质量 和 重心 将 . 
存储 在 每 个 结 点 中 。 每 个 物体 所 受 的 力 可 通过 从 根 结 点 遍历 这 棵 树 来 获得 ， 有 具体 算法 是 当 到 
达 某 个 结 点 时 若 篮 的 估计 值 已 近似 实际 物体 的 值 ， 则 遍历 结束 ， 否 则 继续 向 下 遍历 树 。 在 天 
体 N 体 问题 模拟 中 ， 判 断 何 时 获得 近似 值 的 简单 标准 如 下 : 假设 篮 包 含 在 一 个 体积 为 dx dxd 
的 立方 体 中 ， 到 重心 的 距离 是 >， 当下 式 满 足 时 就 可 使 用 估计 值 : 

r> 5 
其 中 6 是 一 个 常数 ， 通 常 为 1.0 或 小 于 1.0 (6 称 为 开放 角 )。 这 种 方法 可 大 大 减少 计算 量 。 

一 旦 所 有 的 物体 都 被 给 定 新 的 位 置 和 速度 后 ， 在 每 个 时 间 段 重复 这 个 进程 。 这 意味 着 每 
个 时 间 段 都 要 重新 构建 整个 八 又 树 (因为 所 有 的 物体 都 已 经 移动 了 )。 构 建树 需要 的 时 间 为 
O (nlogn)， 所 有 力 的 计算 也 是 如 此 ， 因 此 这 个 方法 的 时 间 复 杂 性 为 O(nlogn)[Barnes and Hnut， 
1986]。 


算法 可 被 描述 为 如 下 : 

for {t = 0; t < tmax; t++) { /* for each time period */ 
Build Octtree(); /* construct Octtree (or Quadtree) */ 
Tot_ Mass_Center (); /* compute total mass & center /* 
Comp_Force(); /* traverse tree/computing forces */ 
Update(); /* update position/velocity */ 


} 
Build_octtree( ) 例 程 可 以 从 物体 的 位 置 开始 构建 ， 依 次 考虑 每 个 物体 。 每 个 结 点 在 
计算 总 质量 和 重心 时 ，Tot_Mass_Center ( ) 例 程 必须 遍历 树 。 这 可 以 递归 实现 。 总 质量 M 
可 通过 对 孩子 的 总 质量 简单 相 加 来 获得 : 
7 
AM = Dw 


其 中 mm; 是 第 i 个 孩子 的 总 质量 。 重 心 C 可 由 下 式 获 得 


其 中 重心 的 位 置 有 三 个 分 量 ， 即 x、y 和 z 三 个 方向 。Comp_Force( ) 例 程 必须 访问 结 点 以 确定 
是 否 得 估计 值 可 以 用 来 计算 那 一 单元 中 所 有 物体 受 的 力 。 如 果 
徐 估 计 值 不 能 使 用 ， 则 必须 访问 该 结 点 的 孩子 结 点 。 

一 般 情 况 下 八 叉 树 是 很 不 对 称 的 ， 而 且 在 模拟 的 过 程 中 其 
形状 会 不 断 变化 。 因 此 ， 简 单 的 静态 划分 策略 在 负载 平衡 方面 
效果 不 好 二 一 种 将 物体 分 为 组 的 更 好 的 方法 称 为 正 交 递归 二 分 
法 [Salmon，1990]。 我 们 以 二 维 正方 形 区 域 来 描述 这 个 方法 。 
首先 找到 一 条 将 区 域 分 为 两 个 区 域 的 紧 直 线 ， 每 个 区 域 包含 一 
样 多 的 物体 ， 然 后 在 每 个 子 区 域 中 用 一 条 水 平 线 将 该 区 域 分 为 
包含 同样 多 物体 的 两 个 区 域 。 重 复 以 上 过 程 ， 直 到 区 域 的 数目 
和 处 理 器 的 数目 相等 ， 每 个 区 域 分 配给 一 个 处 理 器 。 图 4-20 是 图 4-20 正 交 递归 二 分 法 
一 个 这 种 分 割 的 例子 。 


4.3 小 结 
这 一 章 介绍 了 以 下 概念 : 
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* 作为 并 行 计算 技术 基础 的 划分 和 分 治 概念 
* 树 结构 
* 划分 和 分 治 问题 的 例子 ， 即 桶 排序 、 数 值 积 分 和 N 体 问题 


推荐 读物 


分 治 技术 在 许多 数据 结构 和 算法 教科 书 中 均 有 叙述 (例如 ，[Cormen Leiserson and Rivest， 
1990]) ， 正 如 我 们 所 见 ， 这 种 方法 将 产生 一 棵 树 结构 。 如 果 按 树 形 网 络 结构 构建 多 处 理 机 ， 
则 很 适合 分 治 问题 。 在 大 多 数 应 用 都 可 以 使 用 分 治 技术 的 思想 下 ， 已 经 建立 了 一 两 台 树 状 网 
结构 的 机 器 。 然 而 ， 正 如 我 们 在 第 1 章 中 所 讨论 的 那样 ， 树 可 以 嵌入 网 格 或 超 立 方 体 ， 因 此 没 
有 必要 使 用 树 状 网 。 将 分 治 算法 映射 到 不 同体 系 结构 是 研究 论文 的 主题 ， 如 [Lo and 
Rajopadhye ，1990]。 

一 旦 问题 划分 后 ， 茶 些 情况 下 使 用 调度 算法 为 处 理 器 分 配 划分 块 或 进程 是 很 有 必要 的 。 
教科 书 [Sarkar，1989] 专 门 研究 划分 和 调度 ， 该 教科 书 未 讨论 映射 (静态 调度 )。 但 我 们 将 在 
第 7 章 中 讨论 动态 负载 平衡 的 问题 ， 即 在 程序 执行 过 程 中 决定 如 何 为 处 理 器 分 配 任务 。 

桶 排序 在 许多 教科 书 的 排序 算法 中 作 了 描述 (参见 第 9 章 )， 在 [Lindstrom，1985] 和 
[Wagner and Han，1986] 中 有 更 加 详细 的 叙述 。 并 行程 序 设 计 中 的 数值 积分 评述 可 以 在 
[Freeman and Phillips, 1992]、 [Gropp，Lusk，and Skjellum，1994] 和 [Smith，1993] 中 找到 
并 且 经 常 作为 并 行程 序 设 计 中 的 一 个 简单 应 用 。Barnes-Hut 算 法 的 源 出 处 是 [Barnes and Hut， 
1986]。 其 他 的 论文 包括 [Bhatt et al.，1992] 和 [Warren and Salmon，1992]。[Liu and Wu， 


1997] 考 虑 用 C++ 对 该 算法 编程 。 除 了 Barnes-Hut 分 治 算法 ， 另 一 种 方法 是 快速 多 极 算法 
[Greengard and Rokhlin，1987]。 此 外 还 有 一 些 混合 方法 。 
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习题 


科学 /数值 习题 

4-1 编写 一 个 程序 证 明 使 用 如 4.1.1 节 所 描述 的 简单 划分 对 一 组 数 求 和 可 获得 的 最 大 加 速 比 是 
p/2， 其 中 p 是 进程 的 个 数 。 

4-2 使 用 4.1.1 节 中 推导 的 用 于 描述 将 一 组 数 划 分 成 m 个 划分 后 分 别 求 和 的 方程 式 ， 证 明 
当 m= Vp/I+tiw) 时 并 行 执行 时 间 最 小 ， 其 中 站 是 划分 的 个 数 ，p 是 处 理 器 的 个 数 。 
(提示 : 对 并 行 执行 时 间 的 方程 求 导 。) 

4-3 4.1.1 节 中 对 一 组 数 的 求 和 给 出 了 三 种 实现 方法 : 使 用 独立 的 send( ) 和 recv( ) ， 使 用 
广播 例 程 和 独立 的 recv ( ) 返 回 部 分 结果 ， 以 及 使 用 分 散 和 规约 例 程 。 对 三 种 方法 分 别 
编写 并 行程 序 ， 并 使 用 附加 指令 提取 时 间 信 息 (参见 2.3.4 节 )， 比 较 所 得 结果 。 

4-4 ”假设 一 个 计算 的 结构 包含 一 棵 有 n 个 叶子 (最终 子 任务 ) 的 二 又 树 ， 树 的 深度 为 logn， 树 
中 的 每 个 结 点 包含 一 个 计算 步 。 如 果 处 理 器 的 数目 小 于 na， 则 执行 时 间 的 下 限 是 什么 ? 

4-5 依据 通信 、 计 算 、 总 的 并 行 执行 时 间 、 加 速 比 和 效率 ， 分 析 为 一 棵 用 于 对 一 组 数 求 和 的 
树 的 每 个 结 点 分 配 一 个 处 理 器 的 分 治 方法 。 

4-6 完成 4.1.2 节 中 使 用 分 治 (二 分 ) 方法 的 所 有 八 个 进程 的 并 行 伪 代 码 。 

4-7 推导 m 路 分 治 的 通信 和 计算 时 间 的 等 式 ， 沿 用 4.1.2 节 中 所 使 用 的 方法 。 

4-8 ”设计 一 种 分 治 算法 ， 要 求 使 用 n/2 个 处 理 器 在 O(logn) 步 内 ， 在 一 组 n 个 数 中 找 出 最 小 的 
数 。 如 果 处 理 器 的 数目 少 于 n/2， 则 时 间 复杂 性 为 多 少 ? 

4-9 ”编写 一 个 并 行程 序 以 O(logn) 的 时 间 复 杂 性 计算 任意 n 阶 多 项 式 

f=aor +awxlt+arit+ .+ant”! 
其 中 系数 a;(i = 0…n)、x 和 nn 是 输入 。 

4-10 ”编写 一 个 使 用 分 治 方法 的 并 行程 序 从 一 个 存放 在 数组 中 整数 数列 中 找 出 第 一 个 0。 使 用 
16 个 进程 和 256 个 数 。 

4-11 按照 下 列 方法 编写 计算 x 个 整数 的 和 的 并 行程 序 ， 并 评价 它们 的 性 能 。 假 设 * 是 2 的 乘 方 。 
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4-13 


4-14 


4-15 


4-16 
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(a) 将 "个 整数 划分 为 mW2 对 。 使 用 w/2 个 进程 一 起 对 每 对 数 求 和 以 获得 mW2 个 整数 。 
重复 以 上 过 程 对 n/2 个 数 求 和 获得 n/4 个 整数 ， 直 到 求 出 最 后 的 解 。( 这 是 一 个 
二 又 树 算法 。) 

(b) 将 n 个 整数 划分 为 n/log "组 ， 每 组 log n 个 数 。 使 用 n/log n 个 进程 ， 每 个 进程 对 
每 组 数 顺序 相 加 。 最 后 用 (a) 中 的 方法 对 n/log n 个 结果 求 和 。 算 法 如 图 4-21 


所 示 。 
logn 个 数 : 
~ 二 又 树 了 


结果 
图 4-21 习题 4-11(b) 的 进程 图 


按照 下 列 方法 编写 并 行程 序 计算 妃 ， 并 评价 它们 的 性 能 。z 可 以 是 奇数 或 是 偶数 ， 且 是 

一 个 正常 数 。 

(a) 使 用 两 个 并 发 进程 计算 n!， 每 个 进程 约 计 算 完整 序列 的 一 半 。 然 后 由 主 进程 合并 
两 个 部 分 解 。 

(b) 使 用 连接 在 一 起 的 一 个 生产 者 进程 和 一 个 消费 者 进程 ， 生 产 者 进程 按 硕 序 生成 数 1、 
2、3、…、n， 消 费 者 进程 从 生产 者 进程 接受 数据 并 累积 结果 ， 即 1 x 2 x 3…。 

编写 一 个 分 治 并 行程 序 用 于 判断 一 个 二 进 制 文件 中 1 的 个 数 是 偶数 还 是 奇数 〈 即 创建 一 

个 奇偶 检查 器 )。 修 改 程序 使 得 可 以 向 文件 内 容 添加 一 个 位 ， 通 过 设置 它 为 0 或 1 使 得 1 

的 个 数 为 偶数 (奇偶 生成 器 )。 


.如 果 数 不 是 均匀 分 布 时 ， 桶 排序 和 它 的 并 行 实现 性 能 就 较 差 ， 因 为 在 后 续 排序 时 会 


有 较 多 的 数落 入 同一 个 桶 中 。 修 改 并 实现 该 算法 以 使 每 个 桶 所 收集 的 区 域 是 可 变 的 。 
这 可 在 算法 执行 时 完成 或 是 在 算法 执行 前 的 预 处 理 步 中 完成 ， 实 现 你 的 算法 。 

一 种 计算 x 的 方法 是 对 曲线 f(x) = 4/(1 + 邓 ) 下 在 0 到 1 的 区 间 内 的 面积 进行 计算 ， 它 在 
数值 上 等 于 x。 使 用 10 个 进程 按 这 种 方法 编写 一 个 并 行程 序 来 计算 x。 另 一 种 计算 的 方 
法 是 计算 半径 为 r = 1 的 辐 的 面积 ( 即 xr? = r)， 确 定 计算 圆 面积 的 近似 方程 ， 并 用 这 种 
方法 编写 并 行程 序 计 算 r。 评 价 这 两 种 计算 r 的 方法 。 

推导 一 个 公式 以 评估 使 用 4.2.2 节 中 所 描述 的 自 适 应 积分 法 的 积分 。 使 用 梯形 积分 的 推 
导 方 法 。 
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4-17 


党 一 部 分 基 太 技术 


使 用 任意 方法 编写 并 行程 序 以 计算 积分 
an 
rfl+sin(®))e 


4-18 编写 一 个 静态 分 配 的 并 行程 序 来 计算 x， 使 用 如 下 公式 下 : 


4-19 


4-20 


使 用 下 列 方法 : 

1) 矩形 分 解 ， 如 图 4-13 所 示 。 

2) 矩形 分 解 ， 如 图 4-14 所 示 。 

3) 梯形 分 解 ， 如 图 4-15 所 示 。 

用 速度 和 精度 评估 每 一 种 方法 。 

使 用 二 分 法 寻找 函数 的 零点 。 在 这 种 方法 中 ， 计 算 函 数 
的 两 个 点 , 分 别 为 1f(@) 和 f(D), 其 中 f(a)>0 而 f(b) <0， 
则 函数 在 a 和 b 之 间 必 然 存在 一 个 零点 ， 如 图 4-22 所 
示 。 连 续 地 分 割 区 间 就 可 以 找到 零点 的 确切 位 置 。 
编写 一 个 分 治 的 程序 寻找 函数 fx) = 闷 -3x+ 2 的 零点 
(该 函数 有 两 个 零点 ， 即 x = 1 和 x = 2)。 

编写 使 用 辛 普 生 (Simpson) 法 则 计算 一 个 函数 积分 的 
并 行程 序 ， 积 分 的 形式 为 : 图 4.22 用 一 分 法 寻找 零点 





了 -row = SUC) + 4f(a+ 6)+2f(a+26) + 4f(a+35)+2f(a+ 45)+.4f(a+ (n—1)6)+ f(b)] 


4-21 


4-23 


其 中 6 是 固定 的 [6 = (5~a)/n， 且 nn 必须 是 偶数 ]。 选 择 一 个 合适 的 函数 (或 对 它 进行 适当 
安排 以 使 函数 可 以 输入 )。 

编写 一 个 顺序 程序 和 一 个 并 行程 序 来 模拟 天 体 的 N 体 系统 ， 但 仅 限于 二 维 平面 。 所 有 天 
体 初始 均 为 静止 状态 ， 它 们 的 初始 位 置 和 质量 被 随机 选择 (使 用 随机 数 生 成 器 ) 。 使 用 
求解 曼 德 勃 罗 特 问题 时 所 使 用 的 图 形 例 程 来 显示 天 体 的 运动 。 这 些 例 程 可 以 在 
http://www.cs.uncc.edu/par_prog 或 其 他 地 方 找到 ， 为 每 个 天 体 指 定 一 种 颜色 并 用 大 小 来 
指明 质量 。 

根据 库仑 定律 为 带电 粒子 〈 自 由 电子 和 正 电 荷 ) 建立 一 个 N 体 问题 的 方程 。 编 写 一 
个 顺序 程序 和 一 个 并 行程 序 模拟 这 一 系统 ， 假 设 粒子 处 

于 二 维 空间 。 用 图 形 输出 粒子 的 运动 。 自 行 假设 粒子 的 

初始 分 布 和 运动 状态 以 及 问题 求解 空间 。 

(讨论 题 ) 假定 平面 上 有 个 点 ， 设 计 一 个 算法 和 一 个 并 

行程 序 找 出 包含 所 有 点 的 最 小 区 域 ， 并 连接 区 域 边界 上 的 

点 ， 如 图 4-23 所 示 。 这 个 问题 也 叫 平面 凸 包 问 题 ， 可 以 通 

过 与 快速 排序 类 似 的 递归 的 分 治 方法 解决 ， 用 枢 轴 

(pivot) 点 将 区 域 递归 地 分 为 两 部 分 。 有 很 多 关于 对 平面 

图 凸 包 问题 的 信息 ， 包 括 [Blelloch，1996]、[Preparata ”图 4.23 凸 多 边 形 包含 
and Shamos，1985] 以 及 [Miller and Stout，1996]。 问题 (习题 4-23 ) 





现实 生活 习题 


4-24 


4-25 


4-26 


4-27 


编写 一 个 顺序 程序 和 一 个 并 行程 序 分 别 用 于 模拟 太阳 周围 的 行星 (或 其 他 天 体系 统 )。 

产生 一 个 图 形 输 出 表示 这 些 行星 的 运动 。 可 以 自行 提供 行星 的 初始 分 布 和 运动 状态 。 

(尽量 使 用 真实 数据 。) 

假设 你 所 在 州 的 一 家 大 银行 平均 每 天 处 理 200 万 客户 账户 的 3000 万 张 支票 。 其 中 最 费时 

的 一 个 问题 是 将 这 些 支票 按 客户 账目 排序 ， 以 便 将 其 录入 客户 的 每 月 账户 清单 。( 此 外， 

银行 还 为 其 他 客户 银行 处 理 支票 排序 事务 .) 现在 银行 使 用 大 型 机 和 快速 排序 算法 完成 

此 项 工作 。 然 而 ， 你 告诉 银行 说 : 可 以 用 X 台 较 小 的 计算 机 进行 并 行 处 理 ， 让 每 台 机 器 

处 理 全 部 工作 〈3000 万 张 支票 ) 的 IN， 然 后 将 并 行 排序 的 结果 合成 一 个 整体 。 在 银行 

对 这 一 新 技术 投资 之 前 ， 你 被 聘 为 顾问 并 需 用 消息 传递 程序 设计 演示 这 一 过 程 。 根 据 

下 面 假设 ， 为 银行 演示 这 一 新 方法 。 

假设 : 

1) 每 张 支票 有 三 个 识别 号 : 9 位 数 的 银行 识别 号 ，9 位 数 的 账户 识别 号 和 3 位 数 的 支票 
号 (不 打印 或 不 显示 前 导 的 0)。 

2) 按 账 户 号 对 同一 银行 识别 号 的 所 有 支票 排序 并 传 往 该 客户 行 。 

估计 N = 10 和 AN = 1000 时 的 加 速 比 。 估 计 用 于 通信 的 时 间 和 用 于 计算 时 间 的 比率 。 

Sue，21 岁 ， 来 自 一 个 经 济 上 精打细算 的 家 庭 ， 她 多 年 看 着 父母 省 吃 俭 用 和 投资 。 她 每 


. 天 都 在 大 学 图 书馆 里 (免费 ! ) 阅读 《Wall Street Journal》 并 且 知 道 在 她 49 岁 退休 后 


不 可 能 依靠 社会 保险 。 在 她 大 学 毕业 后 ， 父 母 给 她 一 张 CD， 上 面 有 从 1900 年 1 月 1 日 到 
上 月 底 证 券 交 易 的 收盘 价格 的 日 记录 。 

为 简单 起 见 ， 你 可 假设 在 CD 上 ， 从 1900 年 开始 的 358000 个 股票 的 数据 以 日 期 / 记 
号 /收盘 价格 的 记录 有 组 织 地 存放 (每 天 只 列 出 了 一 部 分 , 歇业 的 公司 和 新 加 入 的 公司 )。 
而 且 ， 你 可 假设 记录 的 格式 如 下 : 

日 期 年 份 的 最 后 三 个 数字 ， 后 跟 Julian( 恺 撤 ) 日 (1 月 15 日 是 Julian 15 日 ，2 

月 1 日 是 Julian 32 日 等 ) 
象征 最 多 10 个 字符 ， 如 PCAI、KAUEFEX 或 TBM.AZ， 分 别 代表 NASDAQ 股 票 
“ (PCA International)、 共 同 基金 (Kaufman Aggressive Growth ) 和 在 指 
定时 间 范 围 内 以 指定 价格 选择 购买 IBM 股 票 。 

收盘 价格 三 个 整数 , X (表示 每 股 收盘 价 的 美元 整数 位 )， 了 (表示 每 股 收盘 价 的 

美元 真 分 数 的 分 子 数字 )，Z (表示 收盘 价 的 美元 真 分 数 的 分 母 ) 

例如 “996033/PCA110/3/4” 表 示 1996 年 2 月 2 日 ，PCAI 上 股票 的 收盘 价 为 每 股 $10.75。 

Sue 想 知道 CD 上 的 历史 纪录 中 有 多 少 种 股票 ( 列 在 前 一 个 月 末 的 清单 上 ) 清盘 前 至 

少 连 续 50 个 交易 日 价格 变动 不 大 或 有 所 上 扬 。 

Samantha 越 想 她 祖父 在 1963 年 赢得 多 米 诺 骨 牌 的 世界 杯 冠军 ,她 就 越 想 提高 她 在 这 项 比 
赛 中 的 技术 。 但 她 却 有 个 大 难题 :她 已 经 没有 可 以 匹敌 的 对 手 。 她 已 达到 在 每 场 比赛 中 
都 能 战胜 所 剩 无 几 的 几 个 对 手 的 程度 ! 

Samantha 知 道 有 计算 机 上 的 围棋 、 国 际 象棋 、 桥 牌 、 扑 克 和 跳棋 游戏 ， 她 认为 没有 
理由 那些 计算 机 科学 的 高 手 不 能 将 多 米 诺 骨 牌 做 成 计算 机 游戏 。 加 拿 大 大 学 新 校 U-Can- 
2 的 一 位 计算 机 科学 的 教授 告诉 她 ， 在 理论 上 她 可 以 用 计算 机 实现 任意 她 想 做 的 事 ( 当 
然 不 超过 理论 的 极限 )。Samantha 确 实 很 想 赢 得 下 一 届 世 界 杯 冠军 ! 
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拿 出 她 那 又 慢 又 老 、 几 乎 过 时 的 2“ 立 方 ”的 Itanium 机 (2GHz、2GB RAM、2TB 
硬盘 )， 她 很 快 编 出 了 一 个 简单 的 运行 于 单 处 理 器 上 的 模拟 程序 。 她 的 方法 的 基本 要 点 
是 使 程序 对 每 张 牌 和 已 放 好 的 牌 进行 比较 ， 来 确定 计算 机 的 最 佳 的 移动 。 这 个 程序 包 
含 了 大 量 计算 ， 包 括 牌 的 旋转 和 牌 的 试验 位 置 。Samantha 发 现 往往 是 她 在 等 程序 算出 
下 一 个 位 子 ， 她 开始 像 厌 烦 她 的 对 手 一 样 厌 烦 她 的 游戏 程序 的 性 能 .。 因此，Samantha 
希望 得 到 你 的 帮助 ， 编 写 一 个 并 行程 序 。 

1) 略 述 Samantha 的 单 处 理 器 算法 。 

2) 略 述 你 的 并 行 处 理 机 算法 。 

3) .假如 你 将 5$0 台 和 她 一 样 的 老 计算 机 联网 ， 估 计 可 能 得 到 的 加 速 比 ; 并 向 她 推荐 或 是 
就 用 这 50 人 台 机 器 联网 进行 计算 ， 或 是 花 $800 买 一 台 号 称 在 进行 这 类 模拟 时 能 比 她 
的 老 Itanium 机 器 至 少 快 50 倍 的 最 新 的 机 器 : 14GHz 双 处 理 器 Octium。 该 机 器 有 一 
个 标准 的 1024 位 前 侧 的 数据 总 线 和 可 对 它 的 0.5ns 的 16TB 主 存储 器 进行 2 路 的 同时 
访问 。 

Area 公 司 为 本 地 区 的 许多 小 的 工程 公司 提供 数值 积分 服务 。 当 这 些 公司 在 一 个 域 中 定 

义 有 一 个 连续 函数 并 无 法 积分 时 ， 就 求助 于 Area 公 司 。 你 刚 被 雇用 去 帮助 Area 公 司 提 

高 其 提供 积分 计算 结果 的 速率 。Area 公 司 每 年 都 为 此 蒙受 经 济 损 失 ， 以 至 连 发 放下 星 

期 的 工资 都 成 了 问题 。 假 设 你 还 想 保住 你 的 饭碗 ， 你 必须 帮助 Area 公 司 。 
同时 假设 你 对 并 行 计 算 很 有 研究 ， 并 立即 发 现 问 题 所 在 : Area 一 直 用 单 处 理 器 来 

实现 标准 的 数值 积分 算法 。 

步 1: 将 独立 坐标 轴 分 为 N 个 等 分 区 间 。 

步 2: 用 区 间 宽 度 乘 以 函数 值 ( 当 在 区 间 左 边 求 该 值 时 ) 所 得 到 的 乘积 来 近似 估计 

任何 区 间 中 国 数 下 面部 分 的 面积 。 

步 3: 将 NM 个 近似 值 相 加 ， 得 到 总 面积 。 

步 4: 将 区 间 长 度 减 半 。 . 

步 5: 重复 1-4 步 直到 第 i 次 重复 的 结果 与 第 i-1 次 的 结果 的 误差 小 于 第 i 次 结果 的 

0.001%。 

由 于 你 的 经 理 对 新 奇 的 并 行 算法 表示 怀疑 ， 她 要 求 你 在 两 种 不 同 的 机 器 配置 下 分 
别 进行 演示 : 第 一 种 是 双 处 理 器 ， 第 二 种 是 8 处 理 器 。 她 告诉 你 ， 如 果 演 示 成 功 ， 将 购 
买 更 多 的 处 理 器 并 预示 你 将 得 到 下 周 的 工资 。 

外 星 智 能 搜索 研究 项 目 (the Search for Extra-Terrestrial Intelligence project，SETI) 利 

用 数 百 万 台 计算 机 分 析 来 自 波多 黎 各 Arecibo 天 文 台 射 电 望 远 镜 信号 。 给 每 一 台 计 算 机 

分 配 由 世界 上 最 大 的 射电 望远镜 所 记录 的 一 段 信号 的 有 限 的 时 频段 并 要 求 它们 完成 密 

集 计算 的 分 析 ， 以 确定 该 部 分 含有 来 自 其 他 生命 形式 的 智能 通信 的 可 能 性 。 显 然 ， 这 

是 一 个 分 治 方法 的 例子 。 
讨论 如 何在 世界 范围 的 反恐 怖 主义 斗争 中 将 这 一 方法 用 于 更 为 本 土 的 对 无 线 电 频 

率 通信 分 析 的 问题 。 

Rafic 喜 爱 求解 纵横 填 字 游戏 。 近 来 ， 当 无 法 找到 合适 的 具有 挑战 性 的 难题 时 他 开始 自 

己 来 设计 它们 。 该 过 程 分 为 两 部 分 : 规划 和 欲 填 人 字母 的 各 个 空白 方 格 的 布局 ， 以 及 规 

划分 离 词 或 短语 的 涂 黑 方 格 的 布局 。 他 有 一 本 单词 和 短语 的 字典 ， 该 字典 含有 超过 10 

万 个 单词 和 短语 涉及 从 古 希腊 和 罗马 的 典故 到 相当 时 散 的 用 语 如 Itanium-IHI 和 微微 

(pico) 技术 。Rafic 需 要 你 的 帮助 : 
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开发 一 个 顺序 算法 ， 它 会 生成 大 小 为 N x N 的 一 个 纵横 字谜 难题 ， 再 把 该 顺序 算法 
转换 成 对 应 的 并 行 算法 。 
不 时 地 ， 计 算 机 科学 新 来 的 一 些 大 学 生 受 诱 惑 而 去 拷贝 其 他 同学 完成 的 作业 作为 自己 
提交 的 作业 ， 这 是 一 种 公认 的 剩 窃 的 行为 。 一 旦 被 发 现 常 导致 学 校 的 严厉 惩罚 。 有 了 时 
更 有 创造 力 的 学 生 在 提交 作业 前 做 了 一 些 改变 : 改变 变量 名 ， 改 变 缩 排 ， 有 时 甚至 改 
变 循环 结构 (用 “for” 赫 代 “while” )。 通 常 第 一 年 的 课程 有 400 个 学 生 ， 这 大 约 需 要 
为 每 一 个 编程 作业 进行 80000 次 程序 比较 。 其 结果 是 很 少 进行 全 面 的 检查 。 

(容易 ) 开发 一 个 使 用 N 台 计算 机 的 并 行 方 法 ， 它 能 彻底 检查 出 一 个 典型 编程 的 400 
份 作业 的 确实 复制 。 

( 较 难 ) 对 每 个 程序 中 的 变量 名 做 施加 标记 的 预 处 理 ， 使 每 个 程序 转换 成 一 个 标准 
的 变量 名 集 。 青 使 用 前 面 的 “容易 ”部 分 的 方法 。 

(最 难 ) 对 每 个 程序 进行 预 处 理 使 所 有 循环 放 入 同一 “for” 结 构 。 然 后 实现 前 面 两 
个 部 分 。 
Tom 的 朋友 Sarah 将 设计 拼 板 玩具 视 为 自己 的 业余 爱好 。 在 与 她 自己 的 工作 间 中 的 可 控 计 
算 机 磨床 连 在 一 起 的 她 的 家 中 的 CAD 系 统 上 ， 她 设计 了 三 种 基本 的 拼 板 形状 并 为 每 一 种 
形状 制造 了 几 千 个 拼 板 。 第 1 个 形状 是 直角 三 角形 ， 它 的 两 条 短 边 长 度 为 1 (单位 )。 第 2 
个 形状 是 边 长 为 1 的 正方 形 。 第 3 个 形状 则 是 一 个 直角 三 角形 和 与 其 相 贴 的 一 个 矩形 组 合 ， 
矩形 的 两 个 边 长 分 别 为 4 和 13 ， 而 直角 三 角形 的 短 边 长 为 4。 对 于 给 定 的 任意 一 个 的 拼 板 
组 合 (F 代 表 类 型 1，$ 代 表 类 型 2， 以 及 7 代表 类 型 3) ，Sarah 需 要 你 开发 和 实现 一 个 算法 ， 
该 算法 将 确定 最 大 的 直角 三 角形 的 面积 ， 它 可 通过 将 某 些 或 所 有 的 F + S + 7 类 型 的 拼 板 
放置 在 一 起 而 构成 。 先 是 用 顺序 算法 ， 然 后 用 N 台 计算 机 的 并 行 算法 来 求解 。 图 4-24 中 
示 出 的 这 些 拼 板 的 实例 组 合 可 作为 你 设计 的 出 发 点 。 


、 全 a 


a) 单 二 角形 一 对 三 角形 及 一 个 正方 形 ec) 四 个 (b) 的 实例 ，(b) 实 例 中 的 小 三 角形 面积 
为 0.5 平 方 单位 ，(b) 实 例 的 面积 为 2 平方 单 
位 。 经 90* 旋 转 后 的 四 个 (b) 实 例 形 成 图 
示 的 正方 形 ， 每 条 边 长 为 2V2 ， 
正方 形 面积 为 8 个 平方 单位 


图 4-24 三 角形 (习题 4-32) 





第 5 章 流水 线 计算 


本 章 中 ， 我 们 提出 一 种 称 为 流水 线 (pipelining) 的 并 行 处 理 技术 ， 它 广泛 适用 于 本 质 上 是 
部 分 串 行 的 问题 ， 也 就 是 说 这 些 问 题 必须 执行 一 系列 步骤 。 因 此 我 们 可 以 采用 流水 线 对 其 中 的 
顺序 代码 进行 并 行 化 。 在 本 章 中 还 将 概述 为 了 达到 提高 性 能 的 目的 而 必须 满足 的 一 些 要 求 。 


5.1 流水 线 技术 


在 流水 线 技术 中 ， 问 题 被 分 成 一 系列 必须 是 一 个 接 一 个 完成 的 任务 。 实 际 上 ， 这 也 是 顺 
序 程序 设计 的 基础 。 在 流水 线 操作 中 ， 每 个 任务 由 独立 的 进程 或 处 理 器 所 执行 ， 如 图 5-1 所 示 。 
我 们 有 时 把 一 个 流水 线 进程 称 作 一 个 流水 线 级 (stage )。 每 一 级 只 解决 问题 的 一 部 分 并 且 把 相 
关 的 信息 传送 给 需要 它 的 下 一 级 。 这 种 并 行 性 可 以 看 作 是 功能 分 解 (functional decomposition ) 
的 一 种 形式 。 问 题 被 划分 为 必须 执行 的 独立 的 功能 ， 而 且 在 这 种 情况 下 这 些 功 能 必须 连续 执 
行 。 我们 将 看 到 ,输入 数据 通常 被 分 解 且 分 别处 理 。 


Po Pi Pb P; Ps Ps 
图 5-1 流水 化 进程 


作为 一 个 能 被 流水 线 处 理 的 顺序 程序 的 例子 ， 考 虑 下 面 一 个 简单 的 循环 : 
for (i = 0; i < n; i++) 

sum = sum + a[il]; 
这 个 循环 求 出 数组 a 的 所 有 元 素 之 累加 和 。 它 可 以 按 如 下 方式 展开 : 


sum = sum + af0]; 
sum = sum + a[l]; 
sum = sum + a[2]; 
sum = sum + a[3]; 
sum = sum + a[4]; 


流水 线 的 一 种 解决 方法 是 对 其 中 的 每 条 语句 分 别 设 有 对 应 的 独立 的 级 ， 如 图 5-2 所 示 。 每 
个 级 从 它 的 输入 Sn 处 接收 累加 和 ， 从 输入 a 处 接受 a[ ] 的 一 个 元 素 ， 而 在 它 的 输出 So 处 产生 
新 的 累加 和 。 因 此 ， 第 i 级 将 执行 下 列 操作 : 


Sout = Sin + a[lil; 


a[0] [ll] a[2] a[3] 己 [4] 





图 5-2 展开 循环 流水 线 
这 样 ， 一 系列 的 功能 就 取代 了 简单 的 语句 而 以 流水 线 的 方式 进行 。 一 个 更 实际 的 例子 是 
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频率 过 滤器 ， 在 该 例 中 问题 被 分 成 一 系列 的 功能 (功能 分 解 )。 它 的 目标 是 从 (数字 化 ) 信号 
f(D) 中 去 掉 指定 的 频率 (比如 频率 万 、 廊 、 户 、 户 等 等 )。 信 号 从 流水 线 的 左 方 进 入 ， 如 图 5-3 所 
示 。 每 一 (流水 线 ) 级 负责 去 掉 一 个 频率 。 


没有 频率 没有 频率 ”没有 频率 ”没有 频率 
万 的 信号 搬 的 信和 号“ 卢 的 信号 的 信号 





图 5-3 频率 过 滤器 的 流水 线 


另 一 个 类 似 的 应 用 是 识别 信号 中 的 特定 频率 。 例 如 ， 家 庭 和 专业 音响 系统 通常 在 音频 输 

出 处 显示 特定 的 声音 频率 。 每 个 流水 线 级 能 识别 一 种 频率 并 且 把 它 的 振幅 显示 出 来 而 组 成 频 
率 -振幅 直方 图 的 一 部 分 。 习 题 5-13 将 讨论 这 个 应 用 。 

假定 一 个 问题 能 够 被 分 解 成 一 系列 的 顺序 任务 ， 那 么 采用 下 列 三 种 计算 类 型 ， 可 以 使 用 
流水 线 方法 来 取得 加 速 : 

1) 如 果 将 执行 整个 问题 的 多 个 实例 ; 

2) 如 果 必 须 处 理 一 系列 的 数据 项 ， 而 每 个 数据 项 需要 多 次 操作 ; 

3) 如 果 进 程 在 完成 自己 的 所 有 内 部 操作 之 前 能 够 把 下 一 个 进程 启动 所 需 的 信息 向 前 传送 。 
我 们 将 把 这 三 种 解法 视 为 类 型 1、 类 型 2 和 类 型 3。 

类 型 1 的 方式 在 计算 机 的 内 部 硬件 设计 中 广泛 应 用 。 它 还 应 用 于 一 些 需 要 用 不 同 参数 进行 
多 次 模拟 以 对 比 实验 结果 的 模拟 实验 中 。 类 型 1 的 流水 线 可 以 用 图 5-4 所 示 的 时 空 图 来 说 明 。 
在 这 种 图 中 ， 假 设 每 一 个 进程 完成 任务 的 时 间 是 相同 的 。 每 一 个 时 间 段 就 是 一 个 流水 线 周 期 。 
因此 问题 的 每 一 个 实例 需要 经 历 六 个 顺序 进程 Po、P!、P，、P;、Ps 和 Ps。 请 注意 起 始 时 的 阶 
梯 效 果 。 过 了 这 个 阶梯 效果 之 后 ， 每 一 个 流水 线 周期 就 可 以 完成 问题 的 一 个 实例 。 图 5-4 中 的 
信息 也 可 以 用 另外 一 种 时 空 图 来 表示 ， 如 图 5-5 所 示 。 在 这 种 图 中 ， 实 例 是 在 纵 轴 上 列 出 的 ， 
这 种 形式 的 图 在 必须 显示 一 个 任务 实例 到 另 一 个 任务 实例 所 传递 的 信息 时 比较 有 用 (如 在 处 
理 机 流水 线 中 出 现 的 那样 )。 





实例 实例 实例 实例 实例 


3 | 
实 > 


一 
二 
图 5-4 流水 线 的 时 空 图 
由 p 个 进程 构成 的 流水 线 完 成 m 个 问题 实例 的 执行 需要 m + p~1 个 流水 线 周 期 ， 平 均 周期 数 
为 (m + p-1)/m。 当 m 很 大 时 ， 每 个 问题 实例 趋 近 于 一 个 流水 线 周期 。 在 任何 情况 下 ， 流 水 线 
过 了 开始 的 p-1 个 周期 (流水 线 时 延 ) 后 ， 以 后 的 每 一 个 周期 将 完成 问题 的 一 个 实例 。 在 以 后 
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的 分 析 中 ， 对 于 一 个 p 级 流水 线 和 mm 个 问题 实例 的 情况 ， 我 们 还 将 使 用 m + P~1 这 个 公式 。 


smo [mT rll lal 
实例 1 
实例 2 
实例 3 
实例 4 





时 间 
图 5-5 另 一 种 时 空 图 


”类 型 2 的 方式 ， 即 一 串 数据 项 必须 被 顺序 处 理 ， 通 常 发 生 在 算术 计算 中 ， 如 数组 元 素 相 乘 ， 
其 中 每 一 个 元 素 按 硕 序 进入 流水 线 ， 如 图 5-6 所 示 。 其 中 10 个 进程 组 成 流水 线 并 且 有 10 个 元 素 
do、di、d;、d3、d4、ds、d。、d;、ds、ds 竺 处理。 如 果 每 级 流水 线 周 期 都 相等 的 话 ， 则 p 个 进 
程 、n 个 数据 项 所 需 的 总 的 执行 时 间 是 (p-1) + rn 个 流水 线 周期 。 


输入 序列 


a) 流水 线 结构 





b) 时 序 图 
143] 图 5-6 处 理 10 个 数据 元 素 的 流水 线 


类 型 3 的 情况 经 常 出 现 ， 它 用 于 只 有 问题 的 一 个 实例 要 执行 的 并 行程 序 中 ， 但 每 个 进程 都 
能 在 它 执行 完毕 之 前 把 信息 传递 给 下 一 个 进程 。 图 5-7 显 示 了 这 种 情况 的 时 空 图 ， 其 中 进程 在 
执行 完毕 之 前 ， 信 息 从 该 进程 传递 到 另 一 个 进程 。 
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人 
启动 下 一 个 
进程 的 足够 
的 信息 传输 
传送 到 下 -一 
阶段 的 信息 
时 间 
a) 进程 具有 相同 的 执行 时 间 b) 进程 共有 不 同 的 执行 时 间 


图 5-7 在 进程 执行 结束 之 前 传递 信息 给 下 一 级 的 流水 线 


在 任 一 流水 线 中 ， 如 果 级 比 处 理 器 的 数目 多 ， 每 个 处 理 器 就 会 分 配 到 一 组 级 ， 如 图 5-8 所 
示 。 当 然 ， 这 种 情况 下 每 个 处 理 器 中 的 流水 级 都 是 顺序 执行 的 。 
处 理 器 0 处 理 器 1 处 理 器 2 





图 5-8 在 处 理 器 上 划分 进程 


5.2 ”流水 线 应 用 的 计算 平台 


对 流水 线 操作 的 一 个 关键 要 求 是 流水 线 的 相 邻 进程 之 间 要 有 发 送 消 息 的 能 力 。 这 就 意味 
着 相 邻 进程 所 映射 到 的 相应 的 处 理 器 之 间 应 有 直接 的 通信 和 链 路 。 理 想 的 互联 结构 是 线形 或 环 
形 结构 ， 例 如 一 串 处 理 器 连接 到 一 个 主机 系统 ， 如 图 5-9 所 示 。 当 然 ， 如 第 1 章 所 述 ， 线 形 和 
环形 结构 可 以 完美 地 伐 人 到 网 格 和 超 立 方 体 结构 之 上 。 这 就 使 得 网 格 和 超 立 方 体 成 为 合适 的 
平台 。 线 形 结构 看 起 来 虽然 并 不 灵活 ， 但 是 事实 上 对 于 许多 应 用 来 说 却 很 方便 ， 而 且 廉 价 。 
要 在 联网 计算 机 和 计算 机 机 群 上 有 效 地 使 用 流水 线 ， 需 要 能 够 在 相 邻 的 进程 或 处 理 器 之 间 同 
时 传递 消息 的 互联 结构 。 大 多 数 计算 机 机 群 使 用 交换 式 的 互联 结构 允许 这 种 传送 。 但 一 个 简 
单 的 共享 以 太 网 不 会 提供 这 种 同时 的 传送 。 在 这 种 情况 下 ， 使 用 (本 地 ) 阻塞 式 send() (也 
就 是 通常 用 的 senad ( ) ) 会 稍微 方便 一 些 ， 此 时 一 个 进程 可 不 必 等 待 接收 方 是 否 就 绪 就 继续 下 
一 步 的 操作 。 





图 5-9 线形 结构 的 多 处 理 机 系统 


5.3 ”流水 线程 序 举例 
在 这 一 节 中 ， 我 们 将 用 实例 讨论 流水 线 处 理 方法 ， 其 中 包括 类 型 1、 类 型 2 或 类 型 3。 
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5.3.1 数字 相 加 


我 们 的 第 一 个 例子 是 对 一 个 数列 进行 相 加 《这 也 可 以 用 于 任何 数 的 组 合 运算 )。 当 每 个 进 
程 中 含有 一 个 数 时 (p = nx), 流水 线 的 解决 方案 就 是 让 流水 线 中 的 每 个 进程 加 一 个 数 到 累加 和 
中 ， 如 图 5-10 所 示 。 上 一 个 进程 把 部 分 和 传递 给 下 一 个 进程 ， 每 个 进程 负责 将 该 进程 中 的 数 
加 到 累加 和 中 。 


之 afi] Sall Safi] Sali 


OOFONOFOS 


图 5-10 流水 线 加 法 
除了 第 一 个 进程 Po 的 代码 为 : 


send (gnumber, P]); 

和 最 后 一 个 进程 Pp-! 代 码 为 : 

recv (gnumber, Po-2); 

accumulation = accumulation + number; 

此 外 ,进程 P; 的 基本 代码 很 简单 : 

recv(&accunmmlation, P;_1); 

accumulation = accumulation + number; 

send(&accumulation, Pir1); 

因此 ， 相 应 的 SPMD 程 序 可 以 有 如 下 形式 : 

if (Process > 0) { 

recv (&accumulation, Pi.1); 
accumulation = accumlation + number; 

} 

if (process < p-1) send(&accumlation, Pi+1); 

在 最 后 的 进程 中 得 到 最 终结 果 。 除 了 加 法 ， 还 可 以 进行 其 他 的 算术 运算 。 例 如 ， 单 个 数 x 
与 输入 的 x 相 乘 并 将 结果 向 前 传递 就 可 产生 x 的 乘 方 。 因 此 ， 一 个 五 级 的 流水 线 就 可 以 得 到 xs。 
习题 5-1 探 讨论 了 进行 同一 计算 时 采用 这 种 方法 与 采用 分 治 的 树 结构 方法 相 比 的 优越 性 。 

在 我 们 对 流水 线 的 一 般 描述 中 ， 我 们 看 到 数据 被 输入 到 第 一 个 进程 中 而 不 是 在 相应 的 进 
程 中 。 如 果 输 入 数据 放 入 第 一 个 进程 ， 从 最 后 一 一 个 进程 中 返回 结果 是 很 自然 的 ， 如 图 5-11 所 
示 。 如 果 处 理 器 以 环形 结构 连接 时 尤为 合适 。 

主 进 程 从 进程 


a ~、 
‘ dn-1... dzdido Tr™ 0 一 
/ 
六 、 和 , 7 


图 5-11 采用 主 进程 和 环形 结构 的 数 的 流水 线 加 法 


对 于 主 - 从 结构 ， 采 用 图 5-12 所 示 的 结构 较为 合适 。 求 解 问题 的 数 仅 在 进程 需要 时 才 输 入 
到 每 一 个 进程 中 。 第 一 个 进程 最 先 得 到 数 。 第 二 个 进程 在 一 个 周期 后 得 到 它 所 需 的 数 ， 以 此 
类 推 。 正 如 将 在 第 11 章 看 到 的 那样 ， 这 种 形式 的 消息 传递 出 现在 一 些 数值 问题 中 。 在 第 11 章 
里 ,还 将 介绍 能 从 两 端 同时 输入 信息 的 流水 线 结构 和 二 维 流 水 线 结构 。 
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图 5-12 直接 访问 从 进程 的 数 的 流水 线 加 法 


回 到 数 相 加 这 个 问题 上 ， 让 每 一 个 进程 对 应 一 个 数 是 没有 意义 的 ， 因 为 那样 的 话 ，1000 个 
数 就 需要 1000 个 从 进程 。 通 常 ， 一 个 进程 会 把 一 组 数 相 加 后 再 将 结果 向 前 传送 。 很 多 数值 应 用 
中 都 使 用 了 这 样 的 数据 划分 (data partitioning ) 以 减少 通信 开销 ， 我 们 的 所 有 例子 也 不 例外 。 

分 析 

我 们 举 的 第 一 个 流水 线 的 例子 属于 类 型 1， 它 仅 在 我 们 要 解决 某 个 问题 的 多 个 实例 时 有 效 
(也 就 是 有 多 于 一 组 的 数 要 进行 相 加 )。 | 

在 分 析 流 水 线 时 ， 如 前 几 章 所 述 ， 把 所 有 的 进程 看 作 是 同时 具有 通信 和 计算 的 阶段 是 不 
恰当 的 ， 因 为 问题 的 每 个 实例 的 起 止 时 间 都 不 间 。 我 们 假设 每 个 进程 在 每 个 流水 线 周期 执行 
的 操作 相似 。 这 样 我 们 就 可 计算 出 一 个 流水 线 周 期 所 需 的 通信 和 计算 的 时 间 。 从 而 总 的 执行 
时 间 *ou 就 等 于 每 个 周期 所 花 的 时 间 乘 上 周期 数 ; 即 

foul= (一 个 流水 线 周 期 的 时 间 ) x (周期 数 ) 
tiotal = (fcomp + tcomm ) (m + p—1) 
式 中 mm 为 问题 的 实例 数 ，p 为 流水 线 级 (进程 数 )。tcomp 和 tcomm 分 别 表 示 计 算 时 间 和 通信 和 时间。 
计算 的 平均 时 间 为 : 
ta = ttotal /Mm 

假设 使 用 图 5-11 所 示 的 结构 ， 并 且 有 nn 个 数 。 

(1) 单个 实例 的 问题 让 我 们 首先 考虑 每 一 级 只 负责 加 一 个 数 ， 也 就 是 n 等 于 p。 每 个 流水 
线 周期 的 长 度 就 由 一 次 加 法 和 两 次 通信 时 间 (一 次 通信 从 左 到 右 ， 一 次 通信 从 右 到 左 ) 决定 ， 

tcomp 三 了 
fcomm = 2 (Lstartup + fgata ) 
因此 ， 每 个 流水 线 周 期 /yo 至 少 需 要 tcomp + tcomm， 即 
lcycle = 2(fstarup + taaa) + 1 
tua 表示 传递 一 个 数据 字 通 常 所 需 的 时 间 ，iwwrwp 为 通信 启动 时 间 。 最 后 一 个 进程 仅 有 一 次 通信 ， 
但 因为 所 有 的 进程 都 被 分 配 了 同样 的 时 间 周 期 ， 所 以 这 并 不 会 改变 结果 。 
如 果 我 们 仅仅 计算 一 组 数据 (m = 1)， 则 总 的 执行 时 间 toa 就 可 表示 为 
fiotat = (2(tstarup + faata ) + LD)n 
(也 就 是 等 于 n 个 流水 线 周 期 ， 因 为 每 个 进程 都 必须 等 待 前 一 个 进程 完成 其 计算 并 接收 前 一 个 
进程 的 计算 结果 )。 时 间 复 杂 性 为 O (n)。 

(2) 多 个 实例 问题 ”然而 ， 如 果 我 们 要 分 别 得 到 n 个 数 的 m 组 相 加 的 结果 ， 每 组 导致 一 个 

独立 的 结果 ， 每 个 流水 线 周期 的 时 间 还 是 原来 的 大 小 ， 但 所 需 的 周期 数 却 变 成 了 m + n-1 个 ， 


tiotal = (2(tstanup + taata ) 十 1) (m + n—1) 
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当 m 很 大 时 ， 平 均 执行 时 间 大 约 为 
fa = tioal/m ~ 2(tuarup + fdata ) + 1 
也 就 是 一 个 流水 线 周期 。 

(3) 多 个 实例 问题 的 数据 划分 ”现在 让 我 们 来 考虑 每 一 级 处 理 4 个 数 的 一 组 的 数据 划分 。 
进程 的 数目 为 p = md。 每 次 通信 仍然 传递 一 次 结果 ， 但 是 计算 需要 先 把 d 个 数 累 加 (d-1 步 )， 
再 加 上 输入 数 。 所 以 有 

foomp =d 
tcomm = 2(fstarup + faata) 
total = (2(tstanup +taata ) + d) (m + n/d—1) 
显然 ， 当 我 们 增 大 数据 划分 4d 时 ， 通 信 对 于 整个 计算 时 间 的 影响 减 小 。 但 是 这 样 同时 又 减 小 了 
并 行 性 ， 增 加 了 执行 时 间 。 我 们 把 怎样 寻找 这 个 平衡 点 留 给 习题 (习题 5-5 ) 。 


5.3.2 数 的 排序 


排序 的 目标 是 把 一 组 数字 以 升序 (或 降序 ) 的 顺序 重新 排列 (严格 地 说 ， 如 果 有 重复 数 
字 的 话 ， 应 该 是 非 递 碱 / 非 递 增 的 顺序 )。 流 水 线 排序 的 方法 是 让 第 一 个 进程 Po 每 次 接收 要 排 
序 的 这 一 组 数 中 的 一 个 ， 保 存 当前 接收 到 的 最 大 的 数字 且 把 比 这 个 数 小 的 其 他 数 传递 给 下 一 
个 进程 。 如 果 输 入 的 数 比 当 前 保存 的 数 大 ， 就 把 当前 存储 的 数 传递 给 下 一 个 进程 ， 把 输入 的 
数 保 存 为 当前 的 最 大 数 存储 。 每 个 后 继 进程 都 执行 同样 的 算法 ， 即 总 是 保存 当前 接收 到 的 最 
大 的 数 。 当 所 有 数 都 处 理 完毕 后 ，Po 中 就 保存 有 最 大 的 数 ，P 中 保存 有 次 大 的 数 ，P; 中 保存 
有 第 三 大 的 数 ， 以 此 类 推 。 这 个 算法 其 实 是 插入 排序 (insertion sort) 的 并 行 版 本 。 它 的 顺序 
版 本 类 似 于 用 播 入 的 方法 整理 扑克 牌 (参见 fCormen，Leiserson，and Rivest,1990] (顺序 插入 
排序 算法 仅 在 排序 少量 数 的 时 候 有 效 。) 
图 $-13 显 示 了 排序 5 个 数 时 的 动作 。 进 程 忆 的 基本 算法 如 下 : 
recv (gnumber, Pi_1); 
if (number > x) { 
Send (&x, Pi+r1); 
X = number; 
} else send(&number, Pi41); 
对 于 a 个 数 ， 第 1 个 进程 要 接收 多 少数 是 知道 的 ， 即 -i。 它 要 上 传 多 少 个 数 也 是 知道 的 ， 即 - 
i-1， 这 是 因为 接收 到 的 数 有 一 个 并 不 上 传 。 所 以 ， 可 以 使 用 一 个 简单 的 循环 : 
right procNum ~=n-i-1; /* number of processes to the right */ 
recv (&x, Pi-1); 
* for (j = 0; j < right procNum; j++) { 
recv (gnumber, Pi.1); 
if {gnumber > x) { 
send (&x, Pir1}; 
X = number; 
} else send(gnumber, P;,1); 
} 
图 5-14 解 释 了 这 个 流水 线 。 因 为 每 一 个 流水 线 进程 执行 的 代码 相同 ， 所 以 使 用 SPMD 或 主 
从 方法 的 消息 传递 程序 是 特别 直观 的 。 我 们 从 代码 中 看 出 ， 在 一 个 流水 线 周 期 中 一 个 进程 在 
传递 一 个 数 后 就 没有 机 会 继续 有 效 地 工作 了 (类 型 3)。 然 而 ， 一 系列 操作 要 在 -一 系列 数据 项 
上 完成 《类 型 2) ， 所 以 即使 只 有 一 个 问题 实例 ， 也 可 以 取得 显著 的 加 速 比 。 
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图 5-13 五 个 数 的 插入 排序 的 步骤 
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图 5-14 插入 排序 的 排序 流水 线 


排序 算法 的 结果 可 以 从 使 用 图 5-11 的 环形 结构 或 图 5-15 的 双向 线形 结构 的 流水 线 中 提取 出 
来 。 后 者 更 有 优越 性 ， 因 为 某 进 程 只 要 最 后 一 个 数 通 过 它 被 传递 就 可 以 返回 结果 ， 而 不 必 等 
到 所 有 数 都 被 排序 。[Leighton ，1992] 描 述 了 这 种 和 其 他 三 种 收集 结果 的 方式 ， 得 出 的 结论 是 
这 种 方法 是 最 好 的 。 


A” ~、 

/ \ 
(ddd >/ /一 - 
i n-l 140 } 

、\ / 


图 5-15 使 用 双向 线形 结构 把 结果 返回 给 主 进程 的 插入 排序 
加 上 返回 结果 ， 进 程 的 形式 就 变 为 如 下 : 


right procNum =n-i-1; /* Nnumber of processes to the right */ 
recv (&x, Pi_1); 
for (j = 0; j < right procNum; j++) { 

recv (gnumber, Pi-1); 
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if (number > x) { 
send (&x, Pi41); 
X = number; 
} else send(&number, Pi+1); 


} 
send (&x, Pi_1)}; /* send number held */ 


for (j = 0; j < right procNum; j++) { /* pass on other numbers */ 
recv (gnumber, Pir1); 
send (gnumber, Pi-1); 

} 
一 个 进程 越 靠 近 主 进程 ， 通 过 它 传递 的 数 就 越 多 。 在 编程 时 要 非常 小 心 保证 每 个 进程 有 正确 
数目 的 recv( ) 和 send( )。 进 程 -1 没 有 recv()， 但 有 一 个 send() (到 进程 x-2)。 进 程 n- 
2 有 一 个 recv() (从 进程 x-1 处 ) 和 两 个 send() (到 进程 -3)， 以 此 类 推 。send() 和 
recv( ) 很 容易 不 匹配 ， 这 种 情况 下 就 将 导致 死 锁 。 

分 析 
假设 把 比较 交换 操作 看 作为 一 个 计算 步 ， 这 个 算法 的 顺序 实现 需要 

t=(n-1)+(n-2)+ +2+1=n(n-1)/2 

因为 它 找 到 最 大 数 需要 n-1 步 ， 在 余下 的 数 中 找到 次 大 数 需 要 n-2 步 ， 以 此 类 推 。 大 约 的 步 数 
是 心 / 2， 显然 ， 顺 序 排序 算法 非常 低 效 且 只 适用 于 n 非 常 小 的 情况 。 

如 果 有 n 个 数 要 排序 的 话 ，n 个 流水 线 进程 ， 那 么 并 行 实现 需要 n + n-1 = 27-1 个 流水 线 周 
期 。 每 一 个 周期 有 一 次 比较 交换 操作 。 通 信和 包括 一 个 recv ( ) 和 一 个 send( ) ， 最 后 一 个 进程 
除外 ， 它 只 有 一 个 recv(); 但 这 个 细小 的 差别 可 以 忽略 掉 。 所 以 ， 每 个 流水 线 周 期 至 少 需要 

tcomp = 1 
fcomm = 2(fstarup 十 aata) 
总 的 执行 时 间 tiowm 等 于 
， ttotal = (fcomp + tcomm) (21—1) = (1 + 2(tsarnup + taaa )) (21—1) 

如 果 结 果 是 向 左 传 回 到 主 程序 的 ， 就 可 以 得 到 图 5-16 所 示 的 时 序 图 ， 图 中 需要 3n--1 个 流 
水 线 周期 [Leighton,1992]。 当 然 ， 由 于 通信 介质 的 时 延 和 其 他 原因 ， 实 际 的 并 行程 序 中 的 操作 
不 可 能 像 图 $-16 中 所 示 的 那样 完全 同步 。 
排序 阶段 返回 已 排序 的 数 





时 间 


图 5-16 插入 排序 和 结果 返回 


5.3.3 生成 质数 


生成 质数 的 经 典 方法 是 两 千 多 年 前 由 塞 利 尼 的 埃 拉 托 色 尼 (Eratosthenes) 提出 的 埃 拉 托 
色 尼 筛选 [Bokhari，1987]。 在 这 种 方法 中 ， 所 有 的 一 系列 整数 从 2 开始 产生 。 第 一 个 数 2 是 质 
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数 并 且 给 予 保留 ， 所 有 2 的 倍数 都 被 删除 ， 因 为 它们 不 可 能 是 质数 。 对 余下 的 每 个 数字 重复 这 
个 过 程 。 这 个 算法 是 将 非 质 数 删除 ， 留 下 的 就 仅 有 质数 了 。 
例如 ， 假 设 我 们 想 要 得 到 2 到 20 之 间 的 质数 。 我 们 从 所 有 的 数 开 始 : 

2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 
在 考虑 了 2 之 后 ， 我 们 得 到 

2,3, 4 5,8,7, 9, WW, 11, 12, 13, 14, 15, %, 17, 18, 19, 26 
这 里 划 / 的 数字 表示 它们 不 是 质数 且 不 再 被 考察 。 当 考察 了 3 之 后 ， 我 们 得 到 

2,3, $45,978, 9 16,11, 12,13, 14, 18, 16, 17, 18, 19, 30 
后 继 的 数字 以 同样 的 方式 被 考察 。 然 而 ， 为 了 找 出 到 n 为 止 的 质数 ， 只 需 考 察 从 头 到 Vn 的 数 。 
因为 所 有 比 Vn 大 的 倍数 由 于 也 是 小 于 或 等 于 Vn 的 某 数 的 倍数 而 已 经 是 被 删除 了 。 例 如 ， 如 
果 n = 256，( Vn =16)， 就 没有 必要 考察 17 的 倍数 ， 因 为 17 x 2 已 作为 2 x 17 被 删除 了 ，17 x 3 
已 作为 3 x 17 被 删除 了 ， 对 其 他 超过 16 的 可 以 此 类 推 。 所 以 在 我 们 的 例子 里 ， 我 们 只 要 考察 2 
和 3 就 可 以 得 到 20 以 内 的 质数 。 

应 该 指出 的 是 这 种 基本 的 算法 不 适合 顺序 地 寻找 非常 大 的 质数 (这 恰恰 又 是 人 们 最 感 兴 
趣 的 )， 原 因 是 顺序 的 时 间 复 杂 性 非常 之 大 并 且 由 早先 扫描 表 的 遍 数 决定 而 ， 一 个 提高 性 能 的 
简单 办 法 是 只 考虑 奇数 (这 被 留 作 练习 )。 

1. 顺序 代码 

这 个 问题 的 顺序 程序 通常 使 用 一 个 元 素 初 始 化 为 1 (TRUE ) 的 数组 ， 当 某 元 素 下 标 对 应 
的 数 不 为 质数 时 ， 再 把 它 置 为 0(FALSE)。 假 设 最 后 一 个 数 为 n 且 n 的 平方 根 为 sqrt_n， 于 是 


我 们 有 
for (i = 2; i <= n; i++) 
prime[li] = 1; /* Initialize array */ 
for (i = 2; i <= sqrt_n; i++) /* for each number */ 
if (Prime[i] == 1) /* identified as prime */ 
for (j =i+i;j<=n;j=j+ i) /* strike out all mltiples */ 


prime[j} = 0; /* includes already done */ 
数组 的 元 素 仍 然 用 置 为 1 标识 质数 (数组 下 标 对 应 的 数字 )。 通 过 检测 数组 中 的 1 元 素 就 能 找 出 
所 有 质数 。 
噜 出 质数 的 倍数 所 需 的 迭代 次 数 依赖 于 这 个 质数 本 身 。2 的 倍数 有 |2/72- 世 次 ，3 的 倍数 
有 [Ln/3-1|] 次 ， 等 等 。 因 此 ， 总 的 顺序 时 间 为 


1, = bi Em ba sm ens in 
假设 每 一 次 迭代 等 于 一 个 计算 步 。 顺 序 的 时 间 复 杂 性 为 O(n2?)。 

上 面 这 种 实现 是 非常 低 效 的 ， 因 为 内 层 循环 瞻 出 的 数 可 能 已 经 被 前 面 考察 过 的 数 所 吻 出 。 
实际 上 ， 每 次 扫描 仅 需 从 质数 i 的 平方 开始 ， 而 不 是 从 2i 开 始 。 例 如 ， 考 察 数 5 时 ， 扫 描 可 以 
从 25 (也 就 是 5 x 5) 处 开始 ， 因 为 5x 2，5 x 3， 和 5 x 4 已 经 被 前 面 的 质数 考虑 过 了 。 可 以 在 
[Quinn，1994] 找 到 埃 拉 托 色 尼 篇 选 这 一 版 本 的 分 析 。 

2. 并 行 代码 

注意 到 前 面 的 表达 式 中 前 几 项 决定 了 总 的 时 间 (2 的 倍数 比 3 多 , 3 的 倍数 比 4 多 , 以 此 类 推 )。 
采用 每 个 进程 负责 剔 出 一 个 数 的 倍数 的 基于 划分 的 并 行 实现 不 可 能 是 高 效 的 。 实 际 上 ，[Quinn， 
1994] 指 出 了 这 种 方法 的 加 速 比 的 上 限 大 约 是 2.83 而 与 使 用 的 处 理 器 的 数目 无 关 (在 一 定 假设 
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前 提 下 )。[Bohkari，1987] 也 发 现 这 种 方法 在 实际 条 件 下 只 能 使 用 有 限 数目 的 处 理 器 。 这 个 问 
题 可 以 用 其 他 方法 解决 ， 例 如 ， 每 个 进程 负责 别 出 一 定 范围 内 的 数 的 倍数 〈 参 考 习 题 5-11 )。 
流水 线 的 实现 是 相当 有 效 的。 首先 ， 第 一 个 流水 线 级 输入 一 系列 连续 的 数 ， 然 后 剔 出 所 
有 2 的 倍数 并 把 余下 的 数 传递 给 第 二 级 。 第 二 级 噜 出所 有 3 的 倍数 并 把 余下 的 数 传递 给 第 三 级 ， 
以 此 类 推 。 如 图 5-17 所 示 。 这 里 ， 流 水 线 级 的 个 数 必须 和 质数 的 个 数 相等 (除非 用 了 “ 块 ” 
划分 ， 即 每 个 流水 线 级 处 理 一 组 数 )。 注 意 ， 流 水 线 的 实现 并 没有 上 顺序 版 本 会 重复 考察 已 标 为 


没有 第 1 个 ， 
六 
p。 。 数 的 信 数 p, 
ED ED 人 
Xn-1... XIXO 
少数 比较 
第 | 不 大 第 2 个 质数 第 3 个 质数 


图 5-17 进行 埃 拉 托 色 尼 筛选 的 流水 线 
进程 P; 的 代码 可 以 是 : 


recv (&x, Pi-1); 

/* repeat following for each number */ 
recv (gnumber, Pi-.1); 

if ((number % x) != 0) send{(&number, Pi41); 


因为 每 个 进程 将 接收 不 同 数目 的 数 且 事先 也 不 知道 数 的 多 少 ， 所 以 用 一 个 简单 的 foz 循 
环 来 重复 这 些 操作 是 不 够 的 。 在 流水 线 中 处 理 这 种 情形 的 一 个 通常 的 技术 是 在 序列 的 末尾 发 
送 “ 终 止 符 ” 消 息 ， 那 么 每 个 进程 的 形式 可 为 如 下 形式 : 

recv (&x, Pi-_1); 

for (i = 0; i <n; i++) { 

recv (ENnUumber, Pi-1); 
if (number == terminator) break; 
if (number % x) != 0) send (gnumber, Pi+r1); 

} 

注意 使 用 取 模 算 符 % 去 检测 一 个 数 是 否 是 另 一 个 数 的 倍数 是 不 合算 的 (在 执行 时 间 上 )。 我 
们 在 顺序 代码 中 有 意 地 避免 使 用 它 。 怎 样 在 并 行 代码 中 避免 使 用 它 将 作为 一 个 练习 (习题 5-7)。 

分 析 

和 排序 一 样 ， 这 个 流水 线 实现 也 属于 类 型 2。 该 算法 的 分 析 和 排序 算法 类 似 ， 只 是 由 于 后 
面 的 流水 线 级 并 不 接收 前 一 个 流水 线 进程 接收 的 所 有 数 ， 所 以 每 个 流水 线 进程 完成 任务 所 需 
的 步 又 比 前 一 个 流水 线 进 程 要 少 。 | 


5.3.4 线性 方程 组 求解 一 -特殊 个 例 
最 后 一 个 例子 是 类 型 3， 即 进程 传递 信息 后 还 可 继续 有 用 的 工作 。 这 里 要 解决 的 是 上 三 角 


的 线性 方程 组 : 
Qn 1,0X0 + An-1,1X1 + Gn_1,2X2 tan ln lal = bnl 
G2.0X0 + a2,1X1 + 42.2X2 =b» 
a1,0X0 + a1,17X1 =bi 


ao00x0 =bo 
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式 中 a 和 b 都 是 常量 ，x 是 要 求 的 未 知 数 。 这 种 求解 未 知 数 xzo、x1、x、…、xo-! 方 法 是 一 种 简单 
地 重复 回 代 。 首 先 ， 从 最 后 一 个 等 式 可 以 得 到 未 知 数 z， 即 


bo 
Xo = 一 
、 : ldo.o 
把 xo 的 值 代入 下 一 个 等 式 可 以 得 到 x!， 即 
bi ~ aloXo 
X=——— 
Qi 


把 x 和 xo 的 值 代入 再 下 一 个 等 式 就 可 以 得 到 x;， 即 
b, — a oxXo — a2.1%) 
X= 
02,> 

以 此 类 推 ， 直 到 得 到 所 有 的 未 知 数 。 

显然 ， 这 个 算法 可 以 用 流水 线 来 实现 。 第 一 个 流水 线 级 计算 出 xo 并 且 把 xo 传递 给 第 二 个 
流水 线 级 ， 第 二 个 流水 线 级 从 xo 计算 出 xz 并 把 z 和 xi 传递 给 第 三 个 流水 线 级 ， 第 三 个 流水 线 级 
又 从 z 和 xi 计算 出 x3， 以 此 类 推 、 如 图 5-18 所 示 。 每 一 级 用 一 个 进程 实现 。n 个 等 式 有 n 个 进程 
(如 ，p =n)。 第 i 个 进程 (0< i <p) 接 收 xo、x1、…、-! 的 值 并 从 下 面 的 等 式 中 计算 出 xi: 

b.— 


i 
Qi jj 
= 

X= 


a 


了 


Ps 


P 0 P 1 P 
Xo Xo 20 
; 如 | ; 各 
~ ” ~ | 名 
. 3 


图 5-18 用 流水 线 解 上 三 角 线性 方程 组 


1. 顺序 代码 
假设 常量 ai,; 和 br 分 别 保 存在 数组 a{ ] { 1] 和 bf ] 中， 未 知 数 保存 在 数组 x[ ] 中 ， 串 行 代码 为 
x[0] = bf0ojval01f0]: /* Xf[0] computed separately */ 
for (i = 1; i < n; i++) { /* for remining unknowns */ 
sum = 0; 


for (j = 0; j < i; j++) 
sum = sum + a[il] [j]*x[j]; 
x[i] = (b[il ~- sum)/alil][il; 


} 


2. 并 行 代码 
一 种 流水 线 版 本 的 进程 P;(1<i<p) 的 伪 代 码 为 9 
for (了 = 0; j < i; j++) { 
recv (gx[j], Pi-1); 
send {gx[j], Pi.1); 
} 
sum = 0; 
for (] = 0; jj < i; j++) 
sum = sum + a{[i] [jl*x[j]; 


日 ”有 实现 回 代 的 另 一 种 流水 线 解 决 方案 ， 参 见 第 10 章 。 


心 
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x[i] = (b[i] - sum)/a[lil][il]; 
send{(&x[i], Pir1); 


Po 只 是 计算 xo 和 传递 rr。P; 在 接收 和 传播 值 以 后 还 有 附加 计算 要 完成 


的 时 序 特性 。 
Pi 的 代码 如 下 : fs 
sum = 0; Pa 
for (j = 0; j < i; j++) { Ps 
recv (&x[j], Pi_1); 进程 
send(&x[j], Pi,1); P 
| sum = sum + a[li] [j]*x[j]}; Pi 
155 x[il = (b[i] - sum) /a[i] {i]; Po 
send (&x[i], Pir1); 
3. 分 析 


对 于 这 个 流水 线 ， 我 们 不 能 假定 每 个 流水 线 级 的 计算 量 是 相同 的 





。 这 就 导致 了 图 5-19 所 示 


图 5-19 使 用 回 代 的 流水 线 处 理 


(参见 图 5-19)。 第 一 个 进 


程 Po 执行 一 次 除法 和 一 次 send ( ) 。 第 ;个 进程 (0< i <p-1) 执行 次 recv(), i 次 send()s, i 
次 乘 / 加 ， 一 次 除 / 碱 ， 最 后 还 有 一 个 send( ) 。 假 如 乘 、 加 、 除 、 减 分 别 为 一 个 计算 步 ， 则 总 的 
通信 次 数 是 2 + 1， 而 总 的 计算 步 数 也 是 2i + 2。 最 后 一 个 进程 P_ 执行 p-1 次 recv() ，p-1 次 
乘 /加 和 一 次 除 / 减 ， 总 共 是 p-I 次 通信 和 2P-1 个 计算 步 。 图 5-20 显 示 了 通信 时 间 与 乘 /加 或 除 / 减 
的 时 间 都 一 样 的 操作 。 在 这 种 情况 下 sena( ) 和 recv ( ) 同步 得 很 好 ， 且 并 行 的 执行 时 间 就 等 


于 最 后 一 个 进程 的 时 间 加 上 p-1 个 send( ) 再 加 上 一 次 除法 (计算 xo) 


Po Pi 


send(xo) SS recv(xo) 
结束 Send(xo) 一 recv(xo) 
乘 /加 send(xo) 之 recv(xo) 
除 / 减 乘 /加 Send(xo) 一 
send(x1) = recv(x1) 乘 /加 
结束 send(x1) 之 recv(x1) 
乘 /加 send(x1) 一 
乘 /加 


send(x2) 之 recv(x2) 

结束 send(x2) = 
乘 /加 
除 / 减 
send(x3) = 


结束 


` 图 5-20 回 代 流 水 线 中 的 操作 





的 时 间 。 


recv(xo) 
send(x1) > 
乘 /加 
recv(x1) 
send(x1) 之 
乘 /加 
Tecv(x2) 
send(x2) 之 
乘 /加 
recv(x3) 
send(x*) = 
乘 /加 
除 / 碱 
send(x4) 之 


基本 上 ， 当 p = n 时 这 种 并 行 实现 的 时 间 复 杂 性 是 O(n)。 顺 序 版 本 的 时 间 复 杂 性 是 O (mw? )。 
但 是 ,实际 上 的 加 速 比 并 不 是 x， 这 个 值 严重 依赖 于 实际 的 系统 参数 。 我 们 期 望 一 个 计算 步 比 
一 次 通信 步 快 ， 即 使 是 除法 也 如 此 。 为 了 减少 通信 的 开销 ， 我 们 使 用 非 阻塞 的 发 送 例 程 以 使 


发 送 的 源 进程 尽 可 能 快 地 进入 下 一 步 计 算 。 处 理 器 通常 受阻 塞 接收 限 


制 。 
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4. 线性 方程 组 求解 的 最 后 总 结 

我 们 已 经 研究 了 如 何 并 行 化 上 三 角 的 线性 方程 组 的 解法 (显然 它 也 适用 于 下 三 角形 的 线 
性 方程 组 )。 实 践 中 出 现 过 这 样 的 等 式 ， 例 如 ，[Quinn，1994] 就 描述 了 一 个 上 三 角形 线性 方 
程 组 来 求 一 个 包括 有 电阻 和 电源 的 电路 中 的 电流 。 然 而 更 重要 的 是 回 代 法 是 用 高 斯 消去 法 解 
一 般 形 式 的 线性 方程 组 的 关键 部 分 。 我 们 将 在 第 11 章 中 描述 解 线 性 方程 组 的 高 斯 消去 法 。 高 
斯 消去 法 首先 把 线性 方程 组 转化 为 三 角形 式 之 后 用 回 代 法 解 方 程 。 


5.4 小 结 


本 章 介绍 了 以 下 内 容 : 

“流水线 的 思想 和 它 的 应 用 范围 

“流水线 的 分 析 

“ 显示 流水 线 流 力 的 例子 ， 包 括 插入 排序 、 生 成 质数 、 解 上 三 角 线性 方程 组 


推荐 读物 


流水 线 处 理 经 常 出 现在 用 于 算术 算法 的 特殊 的 超大 规模 集成 电路 (very large scale 
integration VLSI) 部 件 中 。 除 了 只 能 从 一 端 输入 数据 的 简单 的 一 维 流水 线 外 ， 还 有 能 同时 从 
左右 两 端 输入 数据 并 能 同时 在 两 个 方向 传播 信息 的 更 复杂 的 流水 线 或 线性 阵列 。 而 且 可 以 特 
别 地 设计 以 VLSI 实现 的 二 维 阵列 。 我 们 在 第 11 章 将 要 考虑 对 向 量 和 撼 阵 进行 操作 的 二 维 阵列 。 
这 些 阵 列 在 第 11 章 的 脉动 阵列 分 类 中 可 以 看 到 。 流 水 线 也 能 设计 成 对 数字 的 位 进行 操作 以 实 
现 各 种 各 样 的 算术 运算 。[Leighton，1992] 讨 论 了 这 种 流水 线 的 应 用 。 

埃 拉 托 色 尼 篇 选 是 生成 质数 的 一 个 基本 方法 ， 并 且 已 经 在 顺序 程序 设计 教程 里 作为 例子 
出 现 了 很 多 次 。Bokhari( 因 早期 在 多 处 理 器 映射 问题 方面 的 工作 而 闻名 ) 提 出 了 在 共享 存储 器 
多 处 理 机 上 用 埃 拉 托 色 尼 筛选 作为 基准 程序 得 到 的 结果 [Bokhari,1987]。[Lansdowne, Cousins， 
and Wilkinson，1987] 继 续 研 究 这 个 问题 并 且 演 示 了 一 种 能 提高 筛选 编程 性 能 的 方法 。 
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习题 
科学 /数值 习题 
5-1 使 用 流水 线 方法 编写 一 个 计算 x 的 并 行程 序 。 然 后 用 分 治 方法 重新 编写 这 一 并 行程 序 。 
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从 理论 分 析 和 实验 两 个 方面 对 这 两 种 方法 进行 比较 。 
5-2 根据 下 面 的 公式 设计 一 个 计算 sin 6 的 流水 线 解决 方案 : 
sing -60-0 +0 -0 8 .... 
3 5 7 9! 
输入 一 系列 的 值 m，0， 和 ，6，…。 
5-3 ”修改 习题 5-2 的 程序 以 计算 cos8 和 tan9。 
5-4 ”编写 一 个 使 用 流水 线 方法 的 并 行程 序 计 算 下 列 多 项 式 : 
f=aow + axltt+ax + +an1X"! 
其 中 ai (0 <i<n-1<0)，x 和 n 为 输入 。 把 这 种 方法 和 分 治 方法 (第 4 章 的 习题 4-8) 进行 比 
较 。 
5-5 探讨 5.3.1 节 中 所 述 的 流水 线 加 法 中 增加 数据 划分 的 平衡 点 ， 为 你 的 系统 编写 一 个 找 出 最 
优化 数据 划分 的 并 行程 序 。 
5-6 ”比较 插入 排序 (5.3.2 节 ) 的 顺序 实现 和 流水 线 实现 在 加 速 比 和 时 间 复 杂 性 方面 的 不 同 。 
5-7 重新 编写 5.3.3 节 中 的 生成 质数 的 并 行程 序 ， 要 求 避免 使 用 取 模 运算 符 以 使 算法 更 加 有 
5-8 ”基数 排序 类 似 于 4.2.1 节 中 描述 的 桶 排序 ， 只 是 使 用 了 数 的 位 来 确定 每 个 数 应 放 在 哪个 桶 
里 。 首 先 根据 最 高 位 把 每 个 数 分 别 置 于 两 个 桶 中 的 一 个 ， 接 着 根据 次 高 位 把 每 个 桶 中 的 
数 再 分 别 置 于 下 两 个 桶 中 的 一 个 ， 以 此 类 推 ,一 直到 最 低位 比较 完毕 。 改 写 这 个 算法 为 
流水 线 方法 ， 所 有 的 数 重 排序 后 从 一 级 传递 到 下 一 级 直至 排序 完毕 。 为 这 种 方法 编写 一 
个 并 行程 序 并 对 这 种 方法 进行 分 析 。 
5-9 一 个 流水 线 包括 四 个 级 ， 如 图 5-21 所 示 。 每 一 级 执行 的 操作 为 
you = yint+taxx 


请 指出 整个 流水 线 所 需 的 计算 量 。 





图 5-21 ”习题 5-9 的 流水 线 
5-10 两 个 向 量 (一 维 数 组 ) 4 和 8 的 外 积 产 生 一 个 矩阵 (二 维 数组 ) C， 如 下 


A BT C 


a0 aobo 0 aobn_1 


an-_1bo Gn-1bn-1 


模式 化 这 一 计算 的 流水 线 实 现 ， 假 设 4 的 元 素 (ao, ca, …, av-1) 一 起 从 流水 线 的 左边 输 
入 ， 而 有 的 每 个 元 素 分 别 保存 在 每 个 流水 线 级 中 (Po 保存 pp，P, 保存 等 等 )。 为 这 个 
问题 写 一 个 并 行程 序 。 

5-11 比较 下 列 各 种 不 同 的 埃 拉 托 色 尼 筛选 的 实现 方案 : 
(a) 5.3.3 节 中 描述 的 流水 线 方法 。 
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(b) 每 个 进程 负责 剔除 一 个 数 的 倍数 。 
(c) 把 数 划分 为 mm 个 区 域 ， 为 每 个 进程 分 配 一 个 区 域 来 剔除 质数 的 倍数 。 再 用 一 个 主 进 
程 把 已 找到 的 质数 广播 给 各 个 进程 。 
请 分 析 每 一 种 方法 。 
(只 对 有 计算 机 体系 结构 知识 的 学 生 ) 写 一 个 并 行程 序 模拟 [Hennessy and Patterson ， 
2003] 中 描述 的 五 级 流水 线 的 RISC 处 理 器 (精简 指令 集 计算 机 )。 这 个 程序 接受 一 串 机 
器 指令 并 且 把 它们 变 为 流水 线形 式 的 指令 流 ， 包 括 由 于 相关 性 /资源 冲突 所 带 来 的 流 
水 线 时 延 。 用 一 个 与 寄存 器 相对 应 的 有 效 位 来 控制 存 取 寄存 器 ， 如 [Wilkinson，1996] 
所 述 。 


现实 生活 习题 


5-13 


5-14 


5.1 节 中 已 提 到 ， 可 以 用 流水 线 的 方法 实现 音响 系统 中 的 音频 振幅 直方 图 显示 ， 如 图 5- 
22a 所 示 。 这 种 应 用 也 可 以 用 另外 一 种 易 并 行 的 、 功 能 分 解 的 方式 来 实现 ， 即 每 个 进程 
直接 接收 音频 输入 ， 如 图 5-22b 所 示 。 请 使 用 一 个 音频 文件 作为 输入 ， 分 别 用 两 种 方法 
编写 并 行程 序 来 产生 频率 振幅 直方 图 的 显示 ， 然 后 分 析 这 两 种 方法 。( 可 能 要 对 怎样 识 
别 数 字 信号 中 的 频率 做 一 些 研究 。) 





a) 流水 线 方案 b) 直接 分 解 
图 5-22 音频 直方 图 显示 


由 于 始 料 未 及 的 汽车 数量 的 增加 和 州 政府 对 汽车 检验 要 求 的 增加 ，New Caroltucky 州 的 
居民 们 在 抱怨 为 完成 一 次 汽车 检验 花 的 时 间 太 长 。 典 型 地 ， 一 个 刹车 有 35 个 检验 点 (6 
项 检查 是 独立 的 : 印 下 每 个 轮子 ， 然 后 测量 刹车 内 套 / 衬 垫 的 厚度 ， 检 查 主 汽缸 的 密封 
性 和 性 能 ， 寻 找 总 刹车 索 上 的 泄漏 和 裂 颖 )， 其 他 29 项 检查 也 是 很 费时 的 。 一 旦 开始 对 
车 辆 检查 ， 一 般 需 用 时 一 小 时 ; 一 些 人 声称 他 们 为 了 进入 检验 间 就 不 得 不 排队 等 待 。 
立法 委员 们 接 到 报告 ， 在 极端 的 情况 下 ， 队 列 的 时 延 其 至 要 72 小 时 。 

于 是 New Caroltucky 州 的 立法 机 关 准 备 决定 是 否 应 该 改进 州立 检验 站 的 工作 。 因 为 
立法 机 关 听 说 你 正在 学 习 一 门 关 于 顺序 和 并 行 思 想 的 课程 ， 所 以 他 们 决定 雇佣 你 对 目 
前 的 检验 系统 和 设想 的 检验 系统 做 个 模拟 。 要 求 假设 政府 准备 把 目前 的 “ 纯 顺 序 ” 的 
检查 过 程 改 为 “流水 线 ” 方 式 的 话 ， 你 要 确定 总 时 间 (队列 等 待 时 间 加 上 检查 时 间 ) 
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的 减少 。 

目前 的 检查 过 程 开始 于 司机 把 车 开 进 检验 站 的 等 待 队列 。 当 一 个 检验 员 空 闲 下 来 
时 ， 队 列 中 的 第 一 辆 车 就 开 进 检验 站 。 然 后 按 顺 序 执行 35 项 检验 。 如 果 检 验 通过 ， 再 
把 它 开 出 检验 间 并 盖 上 一 个 锥 ， 整 个 耗 时 约 一 小 时 。 

两 种 设想 的 检验 过 程 都 是 从 汽车 开 进 队 列 开始 的 。 在 设想 新 的 “改进 顺序 ”型 系 
统 中 ， 有 三 名 检验 员 在 三 个 独立 的 检验 间 里 同时 对 三 辆 汽车 进行 检验 ， 每 名 检验 员 准 
省 就 绪 时 ， 就 从 队列 的 队 头 开 进 一 辆 汽车 进行 检验 直至 检验 完毕 。 由 于 空间 的 限制 
(只 有 三 个 检验 间 )， 不 可 能 增加 更 多 的 检验 员 同 时 检验 更 多 的 汽车 。 

而 在 设想 的 新 的 “流水 线 ” 系 统 中 ,政府 安装 了 一 些 自动 装置 可 以 使 汽车 自动 地 
在 检验 间 之 间 传 送 : 先进 入 第 1 检验 间 ， 从 那里 出 来 后 进入 第 2 检验 间 以 让 下 一 部 汽车 
进入 第 1 检验 间 ， 再 进入 第 3 检验 间 以 让 第 2 部 汽车 进入 第 2 检验 间 ， 并 且 让 第 3 部 汽车 进 
入 第 1 检验 间 。 这 种 方法 能 够 增加 检验 员 人 数 以 加 速 检验 的 步骤 。 例 如 ， 可 以 先 为 每 一 
个 轮子 设 一 个 检验 员 《〈《 负 责 印 轮子 、 测 量 内 套 / 衬 垫 、 检 验 轮 汽 红 泄 漏 、 更 换 轮子 等 )， 
再 设 第 五 个 检验 员 负 责 寻 找 刹 车 索 上 的 泄漏 。 自然， 政府 关心 的 是 代价 和 效率 ， 他 们 
只 雇用 在 获得 最 大 吞吐 量 的 情况 下 最 小 数目 的 检验 员 。 检 验 员 没有 事 干 是 不 能 容忍 的 ， 
而 开除 检验 员 就 会 导致 总 的 检验 时 间 的 增加 。 

每 个 检验 间 有 一 张 任务 表 ， 表 中 有 完成 每 一 项 任务 需要 的 时 间 ， 还 有 每 个 检验 员 
的 费用 (基本 工资 、 福 利 、 办 公费 用 )。 

你 的 任务 就 是 模拟 这 两 种 新 的 检验 系统 以 确定 几 个 结果 : 

(a) 在 新 的 流水 线 系 统 中 ， 获 得 最 大 检验 吞吐 量 需 要 的 检验 员 的 最 小 数目 是 多 少 ? 
(b) 在 每 一 种 设想 的 新 的 系统 中 ， 每 次 检验 的 劳动 力 费用 是 多 少 ? 

(c) 在 每 一 种 设想 的 新 的 系统 中 ， 预 期 等 待 时 间 会 减少 多 少 ? 

(d) 在 不 做 进一步 模拟 的 情况 下 〈 仅 分 析 前 面 得 到 的 结果 ) ， 对 于 政府 投资 新 设备 、 增 

加 检验 间 的 数量 以 进一步 减少 平均 检验 时 间 的 两 种 新 系统 作 一 个 评估 。( 自然 ， 流 

水 线 系统 中 分 配给 每 一 个 检验 间 的 任务 会 有 改变 ， 但 是 我 们 假设 可 以 重新 培训 检 


从 员 。) 
任务 表 
a. 伸 左 前 轮 1 分 钟 
b. 外 左 后 轮 1 分 钟 
c. 检验 内 套 / 衬 垫 (每 个 轮子 ) 1 分 钟 
i. 换 左前 轮 . 1 分 钟 
j. 校 直 轮子 5 分 钟 
k. 检验 排 气 装置 的 泄漏 1 分 钟 
1. 检验 空 载 时 的 引擎 排放 4 分 钟 
m. 检验 负荷 时 的 引擎 排放 3 分 钟 
z. 把 旧 图 章 换 成 新 图 章 2 分 钟 


总 共 60 分 钟 





5-15 


箱 $ 间 ”流水线 矿区 121 


人 工 费 用 表 
1. 检验 员 (“工蜂 ”) $40 000/ 年 
2. 经 理 ( “ 雄 蜂 ”) $60 000/ 年 
3. 高 级 经 理 (“ 蜂 后 ”) $80 000/ 年 


注意 1: 每 5 个 检验 员 (或 是 其 中 一 部 分 ) 配 一 个 经 理 ， 超 过 两 个 经 理 后 每 4 个 经 理 
(或 是 其 中 一 部 分 ) 配 一 个 高 级 经 理 。 例 如 ， 如 果 有 13 个 检验 员 ， 就 需要 3 个 经 理 和 一 
个 高 级 经 理 。 

注意 2: 这 是 一 个 开放 式 的 问题 ， 需 要 学 生 做 一 些 假 设 ， 如 到 达 率 、 随 机 到 达 时 间 
等 等 。 而 且 相 对 于 平常 的 作业 而 言 ， 这 个 问题 可 能 更 适合 于 做 为 整 门 课程 最 终 的 课程 
设计 。 : 
回顾 影片 或 新 闻 报导 有 关 人 类 链 从 一 个 库存 区 传递 物品 到 需要 这 些 物品 的 地 方 。( 有 关 
例子 包括 接力 地 传递 装 满 的 沙袋 到 河 堤 以 建立 堤防 防止 河水 谥 过 河 堤 ， 以 及 传递 水 桶 
救火 队 接 力 地 将 水 桶 从 供水 处 传递 到 火场 。) 根据 以 下 给 定 的 数据 模拟 一 个 N 人 链 ， 并 
与 N 个 人 独立 地 从 一 个 库存 区 搬运 物品 到 需要 这 些 物品 的 地 方 的 方法 进行 比较 。 目 的 是 
要 确定 加 速 比 ， 即 通过 流水 线 解决 方案 比 通过 独立 操作 解决 方案 在 传递 所 需 物品 时 所 
能 获得 的 传递 速率 的 增加 。 假 设 要 搬运 一 百 万 件 物品 ， 针 对 可 用 的 人 数 分 别 为 150、 
300 和 3 000 的 情况 确定 加 速 比 。 

数据 : 从 库存 区 到 需要 物品 的 地 方 的 距离 是 300 米 ; 一 个 人 独立 工作 时 每 次 可 搬运 
一 件 物品 ， 搬 运 物品 时 和 空手 时 (返程 时 ) 的 行走 速度 分 别 为 每 秒 1 米 和 1.5 米 。 集 体 
工作 时 人 的 间隔 距离 为 1 米 ， 手 对 手 地 从 后 面 一 个 人 手中 接 过 物品 再 将 该 物品 传 给 前 面 
一 个 人 所 需 的 时 间 为 1.25 秒 。 显 然 ， 如 果 人 很 少 的 话 ， 链 或 流水 线 的 方法 是 不 实用 的 。 
类 似 地 ， 如 果 有 多 个 300 人 的 链 。 那 么 多 个 链 可 并 行 操作 。 
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本 章 中 我 们 讨论 由 一 组 必须 不 时 互相 等 待 即 同 步 才能 继续 独立 计算 的 求解 问题 。 这 类 应 
用 中 很 重要 的 一 种 被 称 为 全 同步 (fully synchronous) 应 用 。 在 全 同步 应 用 中 ， 所 有 的 进程 在 
一 些 规 则 的 点 上 同步 。 通 常 ， 一 个 同样 的 计算 或 操作 应 用 于 一 组 数据 点 ， 所 有 操作 以 类 似 于 
SIMD 计 算 的 锁 步 方式 同时 开始 执行 。Fox 和 他 的 同事 们 在 研究 中 发 现 , 在 加 州 理 工学 院 
(Caltech) 具有 开创 性 意义 的 研究 项 目 中 ， 有 70 多 的 第 一 类 应 用 可 以 归 为 同步 应 用 这 一 类 [Fox， 
Williams, and Messina, 1994]。 下 面 我 们 先 讨 论 同 步 进 程 ， 然 后 讨论 全 同步 应 用 。 最 后 ， 我 们 
叙述 为 了 增加 计算 速度 如 何 减 少 所 需 的 同步 数量 ,我 们 称 其 为 部 分 同步 (partially 
synchronous ) 方法 。 为 获得 高 的 计算 速度 部 分 同步 方法 是 非常 重要 的 。 


6.1 同步 
6.1.1 障 机 

想像 有 许多 计算 值 的 进程 ， 每 个 进程 最 终 都 必须 相互 等 待 ， 直 到 所 有 的 进程 都 到 达 了 计 
算 中 某 一 个 指定 的 参考 点 。 这 种 情况 通常 发 生 在 二 


Pi 


进程 需要 相互 交换 数据 然后 从 一 个 已 知 状态 一 起 
继续 运行 的 场合 。 如 果 可 以 动态 创建 进程 ， 那 么 
通过 进程 退出 和 再 派生 就 可 以 实现 这 种 效果 ， 但 
这 种 方法 开销 大 耗 时 多 。 采 用 某 种 机 制 阻止 任何 
进程 通过 某 个 特定 点 ， 直 到 所 有 进程 就 结 后 才 让 
进程 继续 。 实 现 这 种 同步 的 基本 机 制 称 为 障 查 
(parrier)。 在 每 个 进程 必须 等 待 的 点 处 插入 一 个 ”时间 
障 顶 ， 当 所 有 进程 到 达 它 时 (在 某 些 实现 中 ,到 
达 的 进程 超过 一 定数 目 时 ) ， 所 有 的 进程 才能 从 
这 一 点 处 继续 运行 。 图 6-1 中 对 此 概念 做 了 说 明 ， 
在 该 例 中 ,进程 P 最 后 一 个 到 达 障 栅 。 所 以 ， 所 
有 其 他 进程 者 得 等 待 或 转 入 不 活动 状态 直到 进程 | 
P; 到 达 它 的 障 栅 。 此 后 不 活动 的 进程 将 被 唤醒 i 
(重启 ) 且 所 有 进程 各 自 向 自己 的 目标 点 前 进 。 图 61 进程 在 不 同时 间 到 这 说 包 
障 机 可 以 应 用 于 共享 存储 器 系统 或 消息 传递 系统 。 我 们 将 在 第 8 章 和 第 9 章 中 讨论 应 用 二 
共享 存储 器 系统 的 障 机 。 在 消息 传递 系统 中 、 障 机 常常 以 库 例 程 的 形式 提供 。 例 如 ，MPI 的 障 
机 例 程 是 MPI_Barrier()， 唯 一 的 参数 是 一 个 已 命名 的 通信 子 。 组 中 的 每 一 个 进程 都 要 调用 
MPI_Barrier ( ) ， 它 阻 庆 进 程 直到 所 有 组 的 成 员 到 达 障 棚 调 用 并 且 只 在 那 时 才 返 回 。 虽 然 不 
是 在 MPI 中 允许 障 棚 定 义 为 说 明 必 须 到 达 障 栅 的 进程 数目 以 释放 进程 ， 且 该 进程 数 可 以 少 于 总 
的 组 进程 数 ， 但 利用 这 种 特征 的 情况 很 少见 。 障 机 自然 是 同步 的 ， 也 就 用 不 着 消息 标记 了 。 
图 6-2 示 出 了 障 机 的 库 调用 的 方法 。 因 为 单个 障 栅 调用 在 需要 障 机 的 情况 下 被 重用 ， 所 以 
障 栅 匹配 其 他 进程 中 正确 的 障 机 是 很 关键 的 。 通 过 实现 可 以 确保 这 个 特性 。 障 机 调用 的 实现 
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方式 取决 于 实现 者 ， 实 现 者 反 过 来 也 受 基 本 体系 结构 的 影响 。 不 同 的 基本 体系 结构 有 其 特定 
的 更 有 效 的 实现 方式 。 照 常 ，MPI 没 有 说 明 它 的 内 部 实现 。 然 而 ， 为 了 评估 障 机 的 复杂 性 我 


们 需要 知道 一 些 该 实现 方面 的 细节 。 下 面 我 们 介绍 几 个 常见 的 障 机 实现 方式 。 
进程 
Po Pi pp 


! 
t 
f 
1 
1 
1 
1 
1 
1 
1 
1 Barrier (); 
1 


1 
1 
1 
1 
1 
1 
1 
} 
1 
1 
1 
1 
1 
! 


Barrier(); 
进程 等 待 直 到 所 | 
有 的 进程 到 达 它 Barrier(); 
们 的 障 机 调用 | 


上 
1 
1 
! 
1 
{ 
} 





图 6-2 库 调用 障 机 
6.1.2 计数 器 实现 


图 6-3 表 示 一 种 障 机 实现 方式 ， 集 中 式 计数 器 实现 (有 时 称 作 线性 障 栅 )。 用 一 个 计数 器 
对 到 达 障 栅 的 进程 数目 计数 。 在 任何 进程 到 达 它 的 障 栅 前 ， 计 数 器 先 初始 化 为 0。 然 后 每 个 调 
用 障 机 的 进程 将 使 计数 器 增加 1 个 增 量 ， 并 检查 是 否 已 达到 正确 数目 p。 若 计数 器 未 到 p 、 进 程 ”[165 
就 停顿 或 转 入 不 活动 /“ 空 ”状态 。 如 已 达到 p ， 就 释放 这 个 进程 及 其 他 等 待 着 的 进程 。 需 
要 一 种 机 制 来 释放 “ 空 闪 ”进程 。 
进程 
Po P 







[| Barrier(); 


Barrier (); 





1 
上 
1 
1 
1 
1 
! 
t 
上 


图 6-3 用 集中 式 计 数 器 实现 障 栅 


基于 计数 器 的 障 栅 常 分 两 个 阶段 ， 一 个 是 到 达 (或 陷 人 ) 阶段 ， 另 一 个 是 离开 (或 释放 ) 
阶段 。 进 程 进入 到 达 阶 段 后 直到 所 有 进程 都 进入 这 个 阶段 才能 离开 此 阶段 。 然 后 进程 进入 离 
开 阶段 并 被 释放 。 一 个 良好 的 障 机 实现 须 考虑 一 个 障 机 可 能 被 进程 不 只 使 用 一 次 。 前 面 的 进 
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程 还 没有 第 一 次 离开 障 栅 之 前 一 个 进程 可 能 第 二 次 进入 障 栅 。 两 阶段 设计 要 处 理 这 种 情况 。 
假设 是 主 进程 维护 障 机 计数 器 。 在 到 达 阶 段 ， 当 从 进程 到 达 它 们 的 障 机 时 主 进程 对 来 自 
从 进程 的 消息 计数 ， 而 在 离开 阶段 主 进程 释放 从 进程 。 使 用 (本 地 ) 阻塞 send( ) 和 recv() 
发 送 /接收 请 息 且 用 for 循 环 计 数 的 主 进程 的 障 栅 代 码 形式 如 下 : 
for (i = 0; i < p; i++) /* count slaves as they reach their barrier */ 
recv (Pany); 
for (i = 0; i < p; i++) /* release slaves */ 


senad (Pi1); 
变量 是 障 机 计数器。 从 进程 的 障 栅 代码 很 简单 : 


send (Pnaster) ; 
recv (Pnaster) ; 


完整 的 方案 如 图 6-4 所 示 。 在 这 段 代 码 中 ， 可 以 以 任何 次 序 接收 从 进程 发 来 的 消息 ， 但 送 往 从 
进程 的 消息 则 是 按 数 字 次 序 的 。 这 种 实现 允许 在 一 个 进程 中 障 栅 被 重复 调用 ， 因 为 明确 定义 
了 所 有 进程 都 必须 先进 入 到 达 阶 段 才 可 能 转 入 离开 阶段 。 但 应 注意 ， 本 地 阻塞 send( ) 并 不 停 
止 进程 。 在 消息 已 被 构成 好 准备 发 送 之 后 但 在 接收 之 前 从 进程 直接 执行 recv( ) 。recv( ) 将 
阻塞 因为 进程 不 会 过 早 移出 离开 阶段 直到 它们 接收 了 它们 的 消息 。 到 达 阶 段 也 可 用 一 个 集中 
(gather) 例 程 实现 ， 而 离开 阶段 可 用 广播 例 程 实现 。 图 6-4 中 的 send( ) 和 recv() 在 消息 中 
没有 指定 的 数据 ， 因 此 发 送 的 是 一 个 空 (NULL ) 消息 。 


色 达 阶段 
离开 阶段 | 


reCV (Pnaster) 





图 6-4 ”消息 传递 系统 中 的 障 栅 实 现 
6.1.3 树 实现 


障 栅 用 计数 器 实现 的 时 间 复 杂 性 是 O (p) (包括 主 进程 的 计算 复杂 性 和 通信 复杂 性 如 消息 
数 两 者 )，p 是 进程 数 。 一 个 更 有 效 的 障 栅 实 现 可 以 用 2.3.4 节 中 介绍 的 分 散 式 树 结构 实现 。 假 
设 有 八 个 进程 Po、 Pi P» P3, Ps, Ps Pe, Psy。 算法 执行 如 下 : 

第 一 阶段 : Pi 发 送 消 息 给 Po; ( 当 户 到 达 障 栅 时 ) 

P; 发 送 消 息 给 P2; ( 当 P 到 达 障 栅 时 ) 
P5 发送 消息 给 P4 ，( 当 Ps 到 达 障 机 时 ) 
户 发 送 消 息 给 Pe; ( 当 P; 到达 障 栅 时 ) 
第 二 阶段 : P; 发 送 消息 给 Po; (P; 和 P 已 到 达 障 栅 ) 
Pe 发送 消息 给 Ps; (Ps 和 P 已 到 达 障 栅 ) 
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第 三 阶段 : _P 发 送 消息 给 Po (P14:、Ps、P。 和 P 已 到 达 障 栅 ) 
Po 结束 到 达 阶 段 ;( 当 Po 到达 障 栅 且 已 收 到 Ps 发 来 的 消息 ) 
现在 进程 必须 从 障 栅 中 释放 出 来 。 这 可 以 用 一 个 反 向 的 树 构 造 过 程 来 完成 。 图 6-5 是 完 
的 障 栅 构造 过 程 。 在 这 种 情况 下 ， 该 算法 只 发 送 和 接收 消息 而 没有 显 式 的 计算 。 到 达 阶 段 和 
离开 阶段 均 用 树 实现 的 八 个 进程 障 机 算法 需要 210g8 步 ， 一 般 对 p 个 进程 的 算法 需要 210gp 步 ， 
通信 时 间 复 杂 性 为 O (log p). 


Po PI Pp, Ps Ps Ps Ps Pp 





图 6-5 树 形 障 栅 


6.1.4 蝶 形 障 栅 


树 构造 可 以 发 展 成 媒 形 障 栅 (butterfly barrier)。 在 蝶 形 障 机 中 进程 对 按 下 述 方式 在 每 一 
级 进行 同步 (以 八 个 进程 为 例 ): 

第 一 级 : Po <>P1, P<>P3, Ps =P;, Pe >P; 

第 二 级 : Po<>P;, Pi<>P;3, Py >Pe, Ps «>P] 

第 三 级 : Po<>Ps4, Pi<>Ps, PPe, P;<>P 

图 6-6 中 同步 进程 间 的 两 条 “ 链 路 ”表示 两 对 send( ) /recv( )。 进 程 间 交换 数据 时 这 一 
点 将 被 用 到 (如 同 其 他 蝶 形 应 用 )。 对 障 栅 来 说 ， 每 次 同步 仅 需 一 对 send ( ) /recv()。 所 有 
的 同步 级 结束 后 ， 每 个 进程 都 已 与 其 他 进程 同步 ， 因 此 所 有 进程 可 以 继续 。 

在 第 s 级 ， 如 果 p 是 2 的 乘 方 ， 则 进程 ;与 进程 i + 2 一 :进行 同步 ; 否则 ， 进 程 ;与 进程 (i + 21) 
mod p 进 行 同步 。p 个 进程 的 蝶 形 障 机 构造 需要 logp 步 《(p 是 2 的 乘 方 )， 是 树 形 障 栅 实现 所 需 步 
数 的 一 半 ， 但 通信 时 间 的 复杂 性 同样 是 O (logp)。 


心 
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时 间 





6.1.5 局 部 同步 


有 些 问 题 只 需 进程 与 一 些 进 程 同步 而 不 是 与 该 问题 的 全 体 进程 同步 。 进 程 组 织 成 网 格 或 
流水 线 结构 的 算法 中 经 常 出 现 这 种 情况 ， 此 时 只 有 相 邻 进程 才 需 同步 。6.1.2 节 中 使 用 的 消息 
传递 技术 可 以 简化 成 仅 在 需 同步 的 进程 间 发 送 消 息 。 例如， 设 进程 P; 在 继续 执行 前 需要 和 Pi 1、 
Pi+! 同 步 并 交换 数据 ， 那 么 代码 为 : 





进程 Pi- 进程 P 进程 Pi,， 
recv (Pi); SenQ (Pi_1); recv (Pi;); 
send (Pi); send (Pj+1); send (Pi); 
> reov (pi 1); 
recv (Pi41); 


注意 , 这 不 是 个 很 好 的 三 进程 障 栅 ， 因 为 进程 Pi 只 需 与 Pi 同步 , 一旦 Pi 允许 它 就 可 继续 ， 
Pi, 1 只 需 与 Pi 同步 与 此 类 似 。 不 过 ， 在 许多 应 用 中 ， 这 种 同步 方法 已 经 满足 了 。 


6.1.6 死 锁 


在 此 叙述 的 树 构造 、 蝶 形 障 栅 和 局 部 同步 算法 使 用 同步 例 程 来 实现 进程 间 的 同步 。 当 一 
对 进程 各 向 对 方 发 送 和 接收 消息 时 ， 可 能 会 发 生死 锁 。 如 果 两 个 进程 在 调用 同步 例 程 (或 调 
用 阻塞 例 程 而 又 没有 足够 缓存 ) 后 都 先进 行 发 送 ， 就 会 导致 死 锁 。 因 为 谁 也 不 能 返回 ， 双 方 
都 等 着 匹配 的 接收 ， 而 接收 永远 无 法 到 达 。 显 然 ， 这 一 问题 的 解决 方法 是 安排 一 个 进程 先 接 
收 后 发 送 ， 另 一 个 先 发 送 后 接收 。 对 偶数 标号 的 进程 仅 与 奇数 标号 的 进程 通信 的 场合 ， 反 之 
亦 然 ， 如 线性 流水 线 系统 中 ， 让 偶数 标号 的 进程 先 执行 发 送 而 奇数 标号 的 进程 先 执行 接收 ， 
就 可 以 避免 死 锁 。 

由 于 双向 数据 传输 很 普遍 ， 可 以 提供 一 个 复合 阻塞 例 程 sendrecv() ， 由 内 部 实现 细节 
负责 避免 死 锁 。sendrecv ( ) 例 程 发 送 一 个 消息 给 目的 进程 并 从 源 进 程 接收 一 个 消息 。 为 了 
灵活 性 ， 源 和 目的 可 以 是 不 同 或 同一 个 进程 。MPI 中 提供 了 此 类 例 程 MPI_sSendrecv()。 它 
还 提供 了 MPI_Sendrecv_replace()， 它 发 送 和 接收 消息 使 用 同一 个 缓冲 区 ， 接 收 来 的 消 
息 将 替换 发 送 的 消息 。 实 现 这 些 例 程 可 避免 死 锁 的 发 生 。 把 sendrecv( ) 用 于 前 面 的 例子 ， 
就 可 使 代码 简化 为 : 
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进程 P-， 进程 Pi 进程 Pi,1 


sendrecv(Pi); = sendrecv(Pi-1); 
sendrecv (Pi/1); “E> sendrecv (Pi); 


MPI_Sendrecv ( ) 例 程 的 参数 达 12 个 之 多 。 有 人 对 某 些 MPI 例 程 的 参数 列表 之 庞大 颇 有 
微 词 ， 它 倒 可 以 充当 一 个 例证 了 。 


MPI_Sendrecv (sendbuf, sendcount, sendtype, dest, sendtag, recvbuf, 
recvcount, recvtype, source, recvtag, comm, status) 


这 些 参 数 实质 上 是 MPI_Send ( ) 和 MPI_Recv ( ) 参 数列 表 的 并 集 。 
6.2 ”同步 计算 


6.2.1 数据 并 行 计 算 


一 种 隐 含 同步 要 求 的 计算 是 数据 并 行 计算 。 在 数据 并 行 计算 中 ， 相 同 操作 同步 在 不 同 的 
数据 元 素 上 执行 ， 即 并 行 。 数 据 并 行 编程 特别 方便 有 两 个 原因 ， 第 一 是 容易 编程 (本 质 上 只 
要 一 个 程序 )， 第 二 是 可 以 方便 地 扩展 问题 规模 。 许 多 数值 问题 和 某 些 非 数 值 问题 都 可 以 数据 
并 行 化 。 在 1.3.4 节 中 曾 简单 提 及 的 SIMD ( 单 指令 流 多 数据 流 ) 计算 机 就 是 数据 并 行 化 计算 机 ， 
不 同 处 理 器 用 同样 的 指令 处 理 不 同 的 数据 ， 所 有 操作 都 是 同步 的 。 在 SIMD 计 算 机 中 ， 同 步 由 
硬件 实现 ， 处 理 器 以 锁 步 的 方式 操作 。 

数据 并 行 计算 的 一 个 简单 例子 是 给 数组 的 每 个 元 素 加 上 同一 个 常量 : 

for ( = 0; i < n; i++) 

a = a[li] + k; 

语句 a[i]=a[i]+k 可 以 被 多 个 处 理 器 同时 执行 ， 每 个 处 理 器 使 用 一 个 不 同 的 下 标 i 值 
(0<i<n)， 如 图 6-7 所 示 。 在 SIMD 计 算 机 上 ， 等 价 于 a[ ]=a[ ]+k 的 相同 指令 将 被 同时 送 往 每 
个 处 理 器 。 


指令 
alI] = al] + k; 


处 理 器 a[0]=a[0]+ky; 





a[0] af1] aln-1] 
图 6-7 数据 并 行 计算 
并 行程 序 设计 语言 中 ， 有 一 个 特定 的 “并 行 ” 结 构 用 以 指明 数据 并 行 操作 ， 即 foral1 语 
句 。 下 面 这 条 forall 复 合 语句 : 
forall (i = 0; i < n; i++) { 


body 
} 





一 
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表示 循环 体 的 "个 实例 (instance) 可 同时 被 执行 。 循 环 变 量 i 在 每 个 循环 体 的 实例 中 有 一 个 不 
同 的 值 ， 第 一 个 实例 的 i 值 为 0， 下 一 个 为 1， 以 此 类 推 。 循 环 变 量 可 用 来 “个 性 化 ”循环 体 拷 
贝 (例如 ， 访 问 数组 的 不 同 元 素 )。 为 说 明 这 一 点 ， 给 数组 a 的 每 个 元 素 加 上 同一 个 常量 k ,我 
们 可 以 编写 如 下 代码 : | 

forall (i = 0; i < n; I++) 

a[li] = a[li] + k; 

不 管 何 种 情况 ， 每 个 循环 体 实例 必须 独立 于 其 他 实例 。( 第 8 章 中 我 们 将 讨论 如 何 从 数学 
上 建立 这 种 独立 性 . ) 遗憾 的 是 术语 forall 其 实 不 含有 循环 迭代 ， 不 过 是 借以 表示 有 nn 个 循环 
体 的 拷贝 ， 每 一 个 被 赋予 了 不 同 的 i 值 。 

虽然 我 们 不 讨论 适用 于 SIMD 计 算 机 的 程序 ， 但 数据 并 行 技术 可 以 用 于 多 处 理 机 和 多 计算 
机 中 。 在 这 些 并 行 计算 机 中 ， 循 环 体 实例 在 不 同 处 理 器 上 运行 ， 直 到 所 有 实例 都 执行 完 后 整 
个 结构 才 算 执行 完 。 因 而 ， 在 foral1 结 构 中 障 栅 是 隐 式 的 。 在 使 用 库 例 程 的 消息 传递 计算 机 
中 ，forall 结 构 一 般 是 不 可 用 的 ， 因 此 需要 有 一 种 显 式 的 障 栅 。 例 如 ， 在 SPMD (单程 序 多 
数据 ) 程序 中 ， 数 组 元 素 加 k 的 程序 编写 如 下 : 

i = myrank; 

a[li] = ali] + k; /* body */ 

barrier (mygroup); 
其 中 myrank 是 进程 的 序号 ， 取 0 至 n-1 之 间 的 值 。 可 以 认为 每 个 进程 都 可 访问 所 需 的 数组 元 
素 。 一 般 来 说 ， 由 于 障 栅 的 开销 ， 这 么 小 的 循环 体 是 比较 低 效 的 。 

我 们 可 以 构造 比 数组 元 素 加 一 个 常量 复杂 得 多 的 SIMD 计 算 。[Hillis and Steele，1986] 描 
述 了 几 个 数据 并 行 算法 ,包括 求 和 、 排 序 和 链表 操作 。 某 些 SIMD 计 算 机 和 数据 并 行 算法 在 位 
模式 而 不 是 完全 在 数据 上 操作 。 第 12 章 将 介绍 的 许多 图 像 处 理 算 法 就 是 操作 在 位 模式 上 的 数 
据 并 行 算 法 。 

前 缀 求 和 问题 

数据 并 行 算法 的 一 个 例子 是 前 级 求 和 (prefix sum) 问题 。 在 前 级 求 和 问题 中 ,给 定 一 个 
数 到 xo。、…、x-1， 要 求 算出 所 有 的 部 分 和 ( 即 X0 + Xx; 各 +2+3i Xo0+X1+ X22+X3; …)。 前 
绎 运算 也 可 定义 在 除 加 法 之 外 的 组 合 运算 上 ， 如 乘 、 求 最 大 值 、 求 最 小 值 、 字 符 串 的 连接 和 
逻辑 (布尔 ) 运算 (与 、 或 、 异 或 等 )。 多 种 计算 模型 的 研究 都 会 牵涉 到 前 级 问题 。 前 组 运算 
在 处 理 器 分 配 ， 数 据 压缩 ， 排 序 和 多 项 式 方程 计算 等 领域 中 有 实际 应 用 [Wagner and Han， 


1986]。 . 
前 组 求 和 问题 的 顺序 代码 如 下 : 
sum[0] = x[0]; 


for {i = 1; i < n; i++) 


sum[i] = sum[i-1] + x[i]; 


这 是 一 个 0 (nn) 算法。 

图 6-8 显 示 一 种 由 [Hillis and Steele ，1986] 描 述 的 对 16 个 数 求 部 分 和 的 数据 并 行 方法 。 这 
种 方法 构造 一 个 多 重 树 状 结构 ， 直 接 在 x[i] (0 < i< 16) 上 计算 部 分 和 ， 原 来 的 值 被 覆盖 (可 
用 另外 一 个 数组 保存 原 值 . ) 每 一 步 的 计算 量 不 同 ， 首 先是 15(16 一 1) 个 x[i~1] 加 x[i] (1 < i<16) 
的 加 法 ; 然后 是 14(16--2) 个 x[i~2] 加 x[] (2< i<16) 的 加 法 ; 接着 是 12(16-4) 个 xE-4] 加 xD 
(4<i<16) 的 加 法 。 
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图 6-8 数据 并 行 前 绥 和 操作 


通常 ， 这 种 方法 对 个 数 要 logn 步 (n 是 2 的 乘 方 )。 在 第 j 步 (0 < j<logn)， 有 nn-2/ 个 x[i-2] 
被 加 到 xf] (2 < i <n)。 此 方法 的 顺序 代码 如 下 : 


for (] = 0; j < log(n); j++) /* at each step */ 
for (i = 2ij; i < n; i++) /* add to accurmulating sum */ 
x[i] = x[i] + x[i -~ 23j] ; 


因为 SIMD 计 算 机 发 送 相同 指令 给 所 有 处 理 器 ， 需 要 一 种 机 制 来 阻止 某 些 处 理 器 执行 该 指 
令 。 为 说 明 这 点 ， 可 编写 如 下 并 行 代 码 段 : 

for (j] = 0; j < log(n); j++) /* at each step */ 

forall (i = 0; i < n; i++) /* add to accumulating sum */ 
if (i >= 2j) xfil = xfi + x[i - 2i]; . 

其 中 ， 最 多 使 用 n-1 个 处 理 器 以 及 需要 log n 步 。 这 个 并 行 算法 的 时 间 复 杂 性 就 计算 和 通信 两 方 
面 而 言 均 为 O (log n)。 由 于 每 步 只 使 用 了 少数 处 理 器 ， 因 而 效率 <1。 

一 种 使 用 平衡 树 的 前 级 求 和 算法 也 是 O(log n) 算 法 ,但 总 共 需 要 O (n) 次 运算 而 不 是 总 共 O 
(nlogn) 次 运算 。 有 关 对 平衡 树 前 弘 求 和 算法 的 描述 可 参见 [4J4，1992]。 


6.2.2 同步 迭代 


迁 代 是 重复 一 种 操作 ， 它 在 顺序 程序 设计 中 是 一 种 关键 技术 。 每 种 编程 语言 都 提供 了 用 
于 选 代 的 结构 (如 for 、while 或 ae-while 等 结构 )。 和 迭代 方法 是 求解 数值 问题 的 强大 工具 ， 
特别 适用 于 那些 不 易 处 理 的 数值 逼近 问题 的 求解 。 通 常 一 次 选 代 产 生 的 中 间 结 果 用 于 下 一 次 
和 迭代， 以便 更 接近 实际 解 。 直 到 得 到 一 个 足够 接近 的 实际 解 ， 进 程 才 停止 重复 。 和 迭代 方法 的 
基本 思想 本 质 上 是 顺序 的 ， 因 此 不 适合 并 行 实现 。 然 而 ， 和 迭代 方法 中 如 果 存 在 多 个 独立 的 先 
代 实 例 ， 就 可 以 有 效 地 并 行 化 实现 。 这 有 时 是 问题 说 明 的 一 部 分 ， 有 时 我 们 必须 重新 调整 问 
题 说 明 来 获得 多 个 独立 的 实例 。 


LN 
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术语 同步 过 代 或 同步 并 行 性 用 来 描述 用 迭代 方法 解决 问题 ， 每 次 迭代 由 几 个 进程 组 成 ， 


这 些 进程 在 每 次 迭代 开始 时 同时 启动 ， 直 到 所 有 进程 结束 前 一 次 迭代 时 才 开 始 下 一 次 迭代 。 


同步 迭代 的 并 行 计算 体 可 以 用 forall 结 构 来 说 明 : 
for (j = 0; j < n; j++) /* for each synchronous iteration */ 
forall (i = 0; i < p; i++) { ‘“/* p processes each executing */ 
body (i); /* body using specific value of i */ 
} 
如 写成 SPMD 程 序 ， 则 需要 一 个 特定 的 障 顶 : 
for (j = 0; j <n; j++) { /* for each synchronous iteration */ 
i = myrank; /* find value of i to be used */ 
body (i); /* body using specific value of i */ 
barrier (mygroup); 
} 


下 面 介 绍 几 个 具体 的 同步 迭代 例子 。 
6.3 同步 迭代 程序 举例 
6.3.1 用 迁 代 法 解 线性 方程 组 


5.3.4 节 中 介绍 过 如 果 一 个 线性 方程 组 是 特殊 的 三 角形 方程 组 形式 应 如 何 求解 。 假 设 方程 
组 并 不 是 那 种 特殊 形式 ， 而 是 有 n 个 未 知 数 和 n 个 方程 的 一 般 形式 : 


Gn-_1,0%0 + an_1,1X1 + dn-1,2X2 ..: + Gn-l,n—lXn—!= bn 

a2 0X0 + a2,1X1 + 42,2X2 +a2n-iXn-l =b2 
al,0X0 + a1,1X1 + 41,2X2 ‘+aln-lXn-l =b1 
a0,0X0 + a0,1X1 + 40,2X2 ‘+aonixn1 =bo 


其 中 xo，x，X，…Xn-1(0 《 i < 是 未 知 数 。 解 此 方程 组 的 一 种 方法 是 迭代 法 。 把 第 i 个 方程 
(0¢< i<n) 


ioXo + Gi 1X1 + G4; 2X nt = bb 
改写 成 : 
X=(1/a, )[b; — (aioxo + QM + A XN GiiNii i Xi 二 Go 

即 : 

x -LL b -Ya x 

Qi | ey 7 

(0<i<n,，0<j<n)。 上 面 这 个 方程 中 x; 是 其 他 未 知 数 的 显 式 函 数 ， 可 作为 迭代 公式 计算 每 个 
未 知 数 逼 近 值 。 | 


这 种 迭代 方法 就 是 雅 可 比 (Jacobi) 迭代 法 。 在 这 种 方法 中 ， 所 有 的 x 值 同时 更 新 ( 另 一 
种 迭代 法 一 一 高 斯 - 塞 德尔 (Gauss-Seidel) 法 ,将 在 第 11 章 介绍 )。 可 以 证 明 如 果 方 程 组 对 角 
线 上 a 的 绝对 值 大 于 同一 行 中 其 他 a 的 绝对 值 之 和 “a 的 阵列 是 对 角 占 优 的 )， 那 么 雅 可 比 法 收 
敛 。 因 此 ， 收 敛 条 件 是 : | 
六 pi 
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这 是 个 充分 条 件 但 不 是 必要 条 件 ， 此 条 件 不 满足 时 ,方程 组 也 可 能 收敛 。 但 是 ， 如 果 对 角 线 
上 的 任 一 系数 等 于 0 该 迭代 公式 将 不 起 作用 , 因为 这 意味 着 要 除 以 0。 

迭代 法 开始 时 先 对 所 有 未 知 数 假设 一 个 初 值 。 例 如 ， 设 = b:。 然 后 用 迭代 公式 计算 未 知 
数 的 新 值 。 这 些 新 值 再 代入 和 迭代 公式 ， 然 后 重复 下 一 次 友 代 。 和 迭代 过 程 持续 到 所 有 未 知 数 的 
值 都 已 满足 精度 (假设 迭代 法 是 收敛 的 )。 解 线性 方程 组 也 有 “直接 ”的 方法 ， 将 在 第 11 章 介 
绍 。 当 直接 法 的 计算 量 太 大 时 ， 采 用 和 迭 代 法 往往 比较 有 效 。 返 代 法 的 另 一 个 优点 是 对 主 存储 
器 空间 要 求 低 ， 缺 点 是 不 能 保证 总 是 收敛 。 

1. 终止 

并 行 化 中 终止 是 个 特别 关键 问题 。 我 们 将 在 第 7 章 中 结合 负载 平衡 对 它 做 更 详细 地 讨论 。 
一 个 简单 的 常用 方法 是 比较 未 知 数 在 迭代 前 后 的 计算 值 ， 如 果 所 有 值 都 在 一 个 给 定 的 误差 范 
围 内 ， 就 在 第 ! 次 迭代 时 终止 计算 过 程 。 就 是 对 于 所 有 i， 存 在 : 

kk! -x 站 < 误差 范围 

式 中 是 入 在 第 i 次 选 代 后 的 值 ，x 人 是 x 在 第 (1-1) 次 迭代 后 的 值 。 然 而 ， 这 并 不 能 保证 解 
的 精度 。 假 设 误 差 范 围 为 1% 并 且 已 计算 出 一 . 
个 值 是 它 的 上 一 次 计算 值 的 1%。 这 不 是 求解 
的 实际 值 的 1%。 如 果 算 法 是 收敛 的 ， 我 们 可 
以 期 望 下 一 次 所 的 计算 值 与 本 次 值 的 差异 小 
于 1%， 如 0.9999%。 再 下 一 次 值 可 能 相差 
0.9998% 。 误 差 累积 起 来 ， 就 可 能 使 算出 的 值 ”准确 值 | 
与 最 终 的 准确 值 偏差 很 大 ， 如 图 6-9 所 示 。 另 
外 ， 一 次 计算 值 的 误差 会 影响 使 用 它 计 算出 tt+1 杰 代 
的 其 他 值 的 精度 。 图 6-9 收敛 速率 

[Pacheco，1997] 提 出 一 个 更 复杂 的 向 量 终止 条 件 : 


(Soy < 误差 范围 


[Bertsekas and Tsitsiklis ，1989] 提 出 另 一 种 终止 条 件 。 就 是 对 于 所 有 的 i， 存 在 : 


n-l 


{ 
DE -b. 
大 


这 种 方法 仅 使 用 本 次 计算 出 的 值 而 没有 使 用 前 一 次 迭代 的 值 。 计 算出 等 号 左边 的 值 然后 将 这 
个 结果 与 右边 的 常 值 比较 。 由 于 除 aix; 外 的 累加 和 已 在 选 代 中 算出 ， 因 而 计算 量 不 大 。 不 同 
终止 公式 的 有 效 性 和 收敛 性 的 完整 讨论 可 在 数值 方法 方面 的 书籍 中 找到 。 

不 管 何 种 选 代 ， 由 于 迭代 过 程 可 能 无 限 ， 当 达到 最 大 选 代步 数 时 迭代 应 当 停止 。 是 使 用 
复杂 的 终止 条 件 达到 较 少 的 迭代 步 数 , 还 是 使 用 可 能 需要 较 多 的 迭代 步 数 的 简单 的 终止 条 件 需 
要 综合 权衡 。 在 多 次 迭代 后 才 检 查 终止 条 件 也 许 是 个 不 错 的 策略 。 并 行 化 要 求 每 次 迭代 使 用 
前 一 次 迭代 的 所 有 结果 ， 所 以 全 局 同步 是 必要 的 。 雅 可 比 迭代 法 的 收敛 速度 可 能 较 慢 。 习 题 
6-12 从 经 验 角度 分 析 雅 可 比 迭 代 法 的 收敛 性 质 。 第 11 章 将 介绍 更 快 的 选 代 法 。 

2. 顺序 代码 

. 记 线性 方程 组 的 系数 矩阵 为 a[ ] [ ] ， 方 程 组 右边 常数 项 记 为 矩阵 b[ ] ， 用 x[ ] 存放 各 未 知 
数 的 值 ， 和 迭代 步 数 固定 ， 则 代码 可 为 如 下 形式 : 





< 误差 范围 
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for (i = 0; i < n; i++) 


x[i] = b[i]; /*initialize unknowns*/ 
for (iteration = 0; iteration < limit; iteration++) { 
for (i = 0; i < n; i++) { /* for each uninown */ 
sum = 0; 
for (j = 0; j < n; j++) /* Compute Surmation of a[l] [}x[] */ 
if (i != j) sum = sum + a{i}{j)] * x[j]; 
new_x[i] = (b[i] - sum) / a[ilfi]; /* compute Unknown */ 


} 
for (i = 0; i < n; i++) 
x[i] = new x[i]; /* update values */ 


176 ) 
效率 对 顺序 代码 同样 重要 。 有 许多 改善 顺序 算法 代码 效率 的 方法 。 我 们 用 it 语句 防止 将 
a[i][zl*xfj] 用 于 afil[jj*x[j] 累 加 和 。 避 免 重复 执行 广 语 句 的 另 一 种 方法 是 使 循环 
中 包括 afil[jJ]j*x[j]， 但 在 循环 外 减 去 它 ， 代 码 如 下 : 


for (i = 0; i < n; i++) 


x[i] = bl[i]; /*initialize unknowns*/ 
for (iteration = 0; iteration < limit; iteration++) { 

for (i = 0; i < n; i+t+) { /* for each unknown */ 
sum = -a[lij[i] * x[il; 
for (] = 0; j < n; j++) /* compute summation */ 

sum = sum + a{[li}[j] * x{j]; 

new_x[i] = {b[i] - sum) / al[li] [il; /* compute unknown */ 

} 

for {i = 0; i < n; i++) x[i] = new.x[i]; /* update values */ 


} 


还 有 一 种 方法 是 用 双重 循环 计算 累加 和 ， 第 一 层 从 0 到 i-1 而 第 二 层 从 i + 1 到 n-1。 不 过 我 们 还 
是 喜欢 可 读 性 较 好 的 第 二 种 形式 。 

3. 并 行 代码 

每 个 未 知 数 (P = n) 分 配给 一 个 进程 ， 每 个 进程 选 代 步 数 一 样 。 在 每 次 迭代 中 ， 未 知 数 
的 新 计算 出 的 值 需 广 播 给 所 有 其 他 进程 。 在 顺序 代码 中 ，for 循 环 是 每 次 迭代 的 一 个 天 然 障 
栅 。 在 并 行 代码 中 ， 我 们 需要 显 式 插入 一 个 指定 的 障 栅 。 进 程 Pi; 的 代码 如 下 : 

x[i] = bl[lil]; /*initialize unknown*/ 

for (iteration = 0; iteration < limit; iteration++) { 


sum = -a{[li] [i] * x[i]; 
for (j = 0; j < n; j++) /* compute sunmmation */ 

sum = sum + a[i](j] * x[j]; 
Dew x[il = (b[il ~ sum) / al[lil][i]; /* compute unknown */ 
broadcast_receive (&new x{i]); /* broadcast value */ 
global_ barrier (); /* wait for all processes */ 


} 


广播 例 程 broadcast_receive( ) 把 进程 新 算出 的 x[i] 值 送 给 所 有 其 他 进程 并 收集 其 
他 进程 广播 的 数 。 因 为 每 个 进程 要 和 其 他 所 有 进程 的 “广播 接收 ”的 新 计算 出 的 值 相配 ， 所 
以 一 个 广播 是 不 起 作用 的 。 因 此 ，broadcast_receive( ) 共 需要 由 n 个 广播 组 成 ， 每 个 广 
播 带 特定 的 参数 。 

另 一 种 简单 的 方法 是 使 用 基本 的 send( ) 和 recv( ) 人 代替 broadcast_receive()， 进 
程 ; 的 代码 可 为 : 





这 6 芋 同步 计 滔 133 


for (j = 0; j < n; j++) if (i != j) send(&x[i], .Pj); 

for (j = 0; j < n; j++) if (i != j) recv(&x[j], Pj;); 
MPI 中 消息 可 以 送 给 自己 ,因此 if 结 构 可 删 去 。 由 于 进程 在 收 到 所 有 新 计算 出 的 值 之 前 不 会 
继续 ， 故 一 个 独立 的 障 栅 也 可 去 掉 。 

前 面 讨论 过 的 蝶 形 障 栅 能 用 一 种 自然 的 方式 在 一 个 复合 结构 中 广播 和 集中 值 。 因 此 我 们 可 
以 用 蝶 形 障 栅 来 改写 上 面 的 并 行 代码 。 然 而 ， 蝶 形 障 机 的 效率 与 基本 的 体系 结构 有 关 ， 一 个 预 
定义 的 例 程 也 许 会 有 帮助 。 在 MPI 中 就 有 这 样 一 个 例 程 ， 即 MPI_A1l1gather。 全 集中 
(Allgather) 操作 如 图 6-10 所 示 。 每 个 进程 集中 相同 数量 的 数据 项 ， 在 参数 表 中 定义 该 数量 。 


MPI_Allgather 的 一 个 变形 称 作 MPI_Al1gatherv， 它 允许 每 个 进程 集中 不 同 数量 的 数据 项 。 


发 送 缓冲 区 


“接收 缓冲 区 





图 6-10 全 集中 操作 


一 般 来 说 ， 我 们 希望 选 代 过 程 在 逼近 程度 足够 高 时 才 停止 ， 而 不 是 受 固定 的 迭代 步 数 的 
控制 〈 它 可 能 不 能 提供 足够 精确 的 解 )， 每 个 进程 需要 检查 自己 的 计算 值 ， 如 下 : 


x[i] = b[i); /xinitialize unknown*/ 
iteration = 0; 
ao { 

iteration++; 

sum = -a[ij [i] * x[i]; 

for (j = 0; j < n; j++) /* compute summation */ 

sum = sum + a[i][j] * x[j}; 
new xfil = (bl[li] - sum) / alij{i); /* compute unknown */ 
broadcast. receive (&new_x[i]); /* broadcast value and wait */ 


} while (tolerance() && (iteration < limit)); 


其 中 如 果 准 备 终止 tolerance( ) 返 回 FALSE， 否 则 返 同 TRUE。 | 

最 简单 的 机 制 是 当 全 部 进程 收敛 时 才 允 许 进 程 继 续 。 那 么 ， 在 同一 次 迭代 中 每 个 进程 的 
tolerance( ) 都 返回 FALSE， 因 此 所 有 进程 也 同时 停止 。 如 果 我 们 允许 一 个 进程 在 自己 得 
到 福 足 精度 的 解 时 就 停止 ， 那么 各 个 进程 的 迭代 步 数 就 可 能 不 一 样 。 这 种 情况 下 ， 由 于 广播 
例 程 广播 到 组 中 所 有 进程 并 且 希 望 所 有 进程 都 有 匹配 的 例 程 ， 因 此 必须 小 心 以 避免 死 锁 。 

4. 划分 

像 所 有 并 行 模式 一 样 ， 通常 ， 处 理 器 的 数目 比 待 处 理 的 数据 项 (这 里 指正 在 计算 的 未 知 
数 ) 的 数目 少 得 多 。 常 见 的 做 法 是 划分 问题 ， 使 一 个 处 理 器 处 理 多 个 数据 项 。 我 们 可 以 简单 
地 按 升序 给 处 理 器 分 配 未 知 数 ， 设 有 P 个 处 理 器 和 ?个 未 知 数 。 处 理 器 Pe 负责 计算 xo 至 x 0p)-1， 
Xnp 至 xzoop-1 分 配给 Pi， 以 此 类 推 (假设 "能 被 p 整 除 ) 一 一 这 就 是 第 4 章 中 的 求 数字 和 的 块 分 配 。 
把 m， Ap，X2p， *',» Xknp)-1p 分 配给 Po; XI Xp+ls Xp+ls “', Xp-tp + 1! 分 配给 PP 的 将 未 知 数 按 
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顺序 分 配给 处 理 器 的 循环 分 配方 法 对 这 里 讨论 的 问题 没有 什么 优势 ， 反 而 有 不 利之 处 ， 因 为 
未 知 数 的 下 标 值 的 计算 更 复杂 ， 把 这 些 未 知 数 的 值 打包 到 一 个 消息 中 也 更 费劲 。 

5. 分 析 

本 问题 的 顺序 执行 时 间 等 于 一 次 迭代 时 间 乘 以 迭代 次 数 。 假 定 迭 代 次 数 为 r。 这 里 有 两 层 
循环 ， 其 中 一 个 嵌 套 在 另 一 个 中 。 外 层 循 环 有 7 次 进 代 ， 内 层 循 环 总 共有 次 磊 代 。 每 个 内 层 
循环 包括 一 个 乘 和 一 个 加 ， 即 2 个 计算 步 。 外 居 循 环 在 内 野 循 环 前 有 一 个 乘 和 减 ， 而 在 内 层 循 
环 后 的 有 一 个 减 和 除 ， 即 共有 4 个 计算 步 。 因 此 ， 顺 序 计 算 时 间 由 下 式 给 定 : 

t,= n(2n + 4)T 
如 果 和 迭代 次 数 为 常数 ， 则 时 间 复 杂 性 为 O (2 )。 

如 果 我 们 假定 所 有 处 理 器 执行 相同 的 迭代 次 数 则 并 行 执行 时 间 即 为 一 个 处 理 器 的 执行 时 
间 。 假 设 有 n 个 方程 和 p 个 处 理 器 ， 一 个 处 理 器 计算 n/p 个 未 知 数 。 一 次 迭代 有 一 个 计算 阶段 和 
一 个 广播 通信 阶段 。 

(1) 计算 ”在 计算 阶段 ， 内 层 循环 有 nn 次 迭代 ， 外 有 层 循 环 有 n/p 次 迭代 ， 两 者 均 需 执行 与 幅 
套 顺 序 循环 相同 的 计算 量 。 因 而 计算 时 间 为 : 

tcomp = (n/p) (20+4)T 
如 果 和 迭代 次 数 为 常数 ， 时 间 复 杂 度 为 O (nYp)。 随 着 p 增 加 ，、 计 算 时 间 减 少 。 

(2) 通信 通信 在 每 次 迭代 计算 完 后 进行 ， 包 括 多 个 广播 。 实 质 上 ， 由 每 个 处 理 器 计算 
出 的 "个 值 都 应 传 给 其 他 处 理 器 。 设 有 P 个 独立 广播 ， 每 个 包含 wp 个 数据 项 ， 每 个 数据 项 的 发 
送 要 faaa 个 单位 时 间 ， 那 么 总 的 通信 时 间 为 : 

tcomm = p (fstartup + (n/p) taata )T = (plsanup 十 Ntaaa)T 
当 n 给 定时 ， 通 信 时 间 是 p 的 线性 增长 函数 。 
(3) 总 的 执行 时 间 总 的 并 行 执行 时 间 由 下 式 给 定 : 
ty = ((n/p) (2n +4) + Ptsarup + nlaaa )T 

当 kaanup 的 时 间 不 可 忽略 时 ， 总 的 并 行 执行 时 间 由 p (tom ) 的 一 个 递减 函数 和 p (toomn ) 的 一 个 
递增 函数 组 成 ， 故 总 的 执行 时 间 存 在 一 个 最 小 值 。 这 个 性 质 对 大 多 数 划分 问题 都 成 立 。 最 小 
值 可 通过 求 导 得 到 。 举 个 具体 例子 ， 设 twonsp = 10000 目 toms = 50 (这 两 个 值 在 实际 系统 中 具有 
代表 性 ， 参 见 第 2 章 )。 图 6-11 示 出 了 mp 是 整数 情况 下 计算 出 的 总 执行 时 间 、 计 算 时 间 和 通信 
时 间 。 当 p = 16 时 执行 时 间 最 小 。 


2 x 105 
执行 时 间 | 

(r=1) | 1x10 

总 共 

通信 

0 计算 

0 4 8 12 16 20 24 28 32 
一 
处 理 器 数目 p 


图 6-11 雅 可 比 迭 代 的 计算 时 间 和 通信 时 间 
(4) 加 速 比 系数 加 速 比 系数 由 下 式 给 定 : 
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n(2n +4) 
(n/p)2n+4)+ Pitanup + lgota 
如 果 通 信 时 间 可 忽略 时 则 加 速 系 数 为 p。 另 一 方面 依赖 于 tiiarwp 和 ta 的 值 我 们 已 为 此 问题 推导 
出 了 一 个 优化 的 处 理 器 数 。 
(5) 计 工 /通信 比 计算 /通信 比 由 下 式 给 定 : 
计算 /通信 比 = Same - + 入 


comm Pp fstarup + A data 


该 式 表 示 较 大 的 n (可 扩展 ) 值 可 改善 计算 /通信 比 。 
6.3.2 热 分 布 问题 | 


前 面 的 问题 需要 全 局 同步 。 现 在 我 们 来 考虑 一 个 局 部 同步 的 问题 。 有 一 块 正 方形 金属 落 
板 ， 每 个 边 上 的 温度 已 知 ， 内 部 表面 上 任 一 点 的 温度 依赖 于 它 周围 的 温度 。 为 求 得 表面 温度 
分 布 ， 我 们 可 以 把 表面 区 域 划分 成 细小 的 网 格 点 所 ;。 内 部 网 格 点 的 温度 可 认为 是 它 的 四 个 相 
邻 网 格 点 的 温度 的 均值 ， 如 图 6-12 所 示 。 为 了 这 一 计算 ,通过 一 系列 与 内 点 相 邻 的 点 来 描述 
边 是 很 方便 的 。 那 么 当 太 的 0< i<n，0<j<n 时 ， 内 点 共有 (DD) x (n-D 个 。 而 当 i = 0、 i=n、j 
= 0 或 j = /时 , 为 边界 点 。 边 界 点 有 与 边 的 固定 温度 相对 应 的 固定 值 。 因 此 思 ;的 完整 范围 是 0 
<i<n、0<j<n 且 共有 (n+1)xQn+ 上 了) 个 点 ， 通 过 迄 代 下 面 这 个 方程 : 


A RAL NAN A - 所 0cjcn, 0<j<n) 


加 速 比 系数 = 三- 


对 于 固定 交代 次 数 或 直到 一 个 点 迭代 误差 达到 约定 精度 ， 我 们 可 以 计算 出 每 个 点 的 温度 。 





图 6-12 热 分 布 问 题 


这 个 迭代 方程 也 用 于 其 他 类 似 问 题 中 ， 如 压力 和 电压 问题 。 在 科学 和 工程 计算 解决 重要 的 
问题 时 有 更 复杂 的 迭代 方程 。 事 实 上 我 们 是 在 求解 线性 方程 组 系统 。 每 个 点 是 一 个 未 知 数 ， 只 
依赖 于 其 他 几 个 未 知 数 ， 而 不 是 像 一 般 化 情况 下 依赖 于 全 部 其 他 的 未 知 数 。 为 表明 这 种 关系 ， 
考虑 以 自然 顺序 编号 点 的 阵列 ， 从 左上 角 开 始 ， 以 m 个 点 为 一 行 ， 序 号 按 行 递增 ， 如 图 6-13 所 
示 。 为 书写 方便 从 1 开始 编号 ， 并 包括 那些 代表 边 的 点 。( 注 意 ， 这 里 m = n。m 用 来 区 分 编号 
方法 。) 每 个 点 使 用 如 下 方程 : 


马 





一 
oo 
[3 


136 钊 一遍 分 痰 枯 失 大 


x Ki F Kis + Ki + Nipm 
i 
4 
这 可 以 写成 包含 未 知 数 -mn、x -1、 坊 ,1、xi 1m 的 线性 方程 形式 : 要 Ym! Xm 
Xi-mt+ Xi1~4Xi t+ XiritXit+m=0 Xm+! Xm+2 Xam-1 Tam 
i 


其 中 0<igm， 即 有 mw 个 方程 。 这 种 方法 也 叫 有 限 差分 方法 ， 
可 以 推广 至 三 维 情 况 ， 此 时 要 取 六 个 相 邻 点 的 平均 值 ， 每 一 维 取 


二 个 。 有限 差 分 法 也 可 用 于 求解 拉 普 拉 斯 方程 ， 它 与 线性 方程 的 。; | 了。 | 

关系 将 在 第 11 章 做 更 深入 地 讨论 。( 在 第 11 章 中 用 mn 表示 方程 数 。) ! | 二 1 

1. 顺序 代码 i 上 

下 面 我 们 回 到 点 的 初始 数值 系统 ， 假 定 每 点 的 温度 用 数组 oz 

h[i][j] 表 示 ， 边 界 点 h[0][x]、h[x][0]、 hfn][x] 和 。 。 ------ ” 

h[x][n](0<x<) 已 经 用 边 温度 初始 化 。 该 计算 的 顺序 代码 如 下 : ”图 6-13 宫 币 中 是 网 络 上 的 
AS 3 


for (iteration = 0; iteration < limit; iteration++) { 
for (i = 1; i< mi I++) 
for (了 = 1; j < ny j++) 
gfil[j] = 0.25 * (h[i-1][j] + h(i+1][j] + h{i][j-1] + hli][j+1]); 
for (i = 1; i < n; I++) , /* update points */ 
for (] = 1; j < n; j++) 
hfijfJl = g[i][j]; 
} 


使 用 固定 次 数 的 迭代 。 点 的 新 值 的 计算 中 之 所 以 乘 0.25 而 不 是 除 以 4， 是 因为 乘法 通常 比 除法 
效率 更 高 。 顺 序 编码 中 提高 效率 的 常用 方法 同样 适用 于 并 行 编码 ， 只 要 有 可 能 就 应 使 用 这 些 
优化 方法 。( 当然 ， 一 个 好 的 优化 编译 器 可 以 帮助 完成 这 些 转换 。) 
假如 我 们 想 在 达到 某 个 精度 时 停止 选 代 ， 有 几 种 方法 ， 但 在 所 有 情况 中 ， 所 有 的 点 必须 
达到 它们 的 精度 要 求 。 经 过 对 数组 适当 的 初始 化 ， 顺 序 编码 可 能 如 下 : 
Go { 
for {i = 1; i < ny i++) 
for (j = 1; j < n; j++) 
g[i][j] = 0.25* (h(i-1] {j] + hli+1][j] + h[i][(j-1]) + hli] [j+1]); 
for (i = 1; i < n; i++) /* Update points */ 
for (j = 1; 了 < ny j++) 
hr[il[j] = g[i][j]; 


continue = FALSE; /* indicates whether to continue */ 
for (i = 1; i < n; i++) /* check each point for convergence */ 
for (j = 1; j < n; j++) 
if (iconverged(i,j) { /* point found not converged */ 
Continue = TRUE; 
break; 


} 


} while (continue == TRUE); 


该 代码 表明 了 在 所 有 点 都 计算 过 之 后 检验 收敛 性 ， 可 以 使 用 不 同 的 可 能 的 收敛 算法 。 如 果 元 素 
9[i][j] 已 收敛 到 要 求 的 精度 ， 例 程 converged (i,j) 就 返回 值 TRUE; 反之 ， 它 返 回 值 
FALSE。 如 果 一 次 选 代 中 至 少 有 一 点 没有 收敛 ， 布尔 型 标记 continue 就 会 被 设置 为 TRUE。 通 


常 ， 我 们 希望 确保 循环 即使 在 不 发 生 收敛 时 也 能 终止 。 这 可 以 通过 加 入 一 个 循环 计数 器 来 实现 。 
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2. 改进 

在 上 面 的 代码 中 ， 需 要 另 一 个 数组 g[ ] [ ] 来 存放 从 旧 值 计算 得 到 的 点 的 新 值 。 在 g[ ][] 
中 的 所 有 值 被 计算 后 就 用 保存 在 g[ ] [ ] 中 的 新 值 更 新 数组 h[ ][ ] 。 使 用 一 次 迭代 的 值 以 计算 
下 一 次 的 迭代 值 的 这 种 方式 称 为 雅 可 比 选 代 。 一 个 显著 的 改进 是 取消 第 二 个 数组 : 

for (iteration = 0; iteration < limit; iteration++) { 

for (i = 1; i < n; i++) 
for (j = 1; j < n; j++) 
hr[ilfjl = 0.25 * (hfi-1][Jj] + h[i+1][j} + h(il(j-1] + hf[il(j+1]); 
对 于 给 定 计 算 的 顺序 次 序 ， 该 迭代 中 用 来 计算 h[i][j] 的 两 个 值 h{i-1][j] 和 h[i][j-1]) 
已 经 计算 出 并 被 使 用 ， 而 在 该 迭代 中 还 未 计算 出 的 另 两 个 值 (hti+1][j] 和 h[i][j+1]) 将 
从 前 面 的 迭代 中 加 以 计算 。 如 此 ，、 我 们 所 使 用 的 是 最 近 的 可 用 值 。 这 就 是 所 谓 的 高 斯 - 塞 得 尔 
送 代 ， 它 通常 可 生成 一 个 更 快 的 收敛 。 但 是 它 依 赖 于 计算 的 顺序 次 序 。 

在 高 斯 - 塞 得 尔 方法 中 对 未 知 数 (点 ) 的 计算 ， 如 x; (0 < i < n~-1)， 是 按 序 进行 的 ， 所 以 在 
当前 的 未 知 数 wU < i) 之 前 的 那些 未 知 数 已 经 计算 完毕 并 加 以 使 用 ， 而 那些 在 当前 点 之 后 的 未 
知 数 xi(k > 在 当前 的 迭代 中 还 未 计算 出 ， 所 以 就 使 用 在 前 一 迭代 中 计算 得 到 的 值 。 基 本 的 高 
斯 - 塞 得 尔 方 法 能 很 好 地 与 未 知 数 按 某 种 顺序 次 序 进行 计算 的 顺序 程序 相 匹 配 的 , 但 如 前 所 述 ， 
对 于 未 知 数 的 计算 是 同时 进行 的 并 行程 序 而 言 它 并 不 是 一 个 好 的 基础 。 然 而 存在 某 些 特定 的 
次 序 人 允许 进 行 同 时 计算 。 我 们 将 在 本 章 的 末尾 探讨 适合 并 行 化 的 不 同 的 次 序 和 更 快 的 选 代 方 
法 ， 而 更 多 的 细 闻 将 在 第 11 章 中 叙述 。 现 在 我 们 将 集中 讨论 雅 可 比 迭 代 因 为 它 人 允许 我 们 研究 
局 部 同步 ， 但 我 们 应 明白 通常 雅 可 比 迭 代 既 不 是 最 好 的 顺序 算法 也 不 是 并 行 算法 的 最 好 基础 。 

3. 并 行 代码 

顺序 代码 显得 “不 太 自 然 "， 因 为 我 们 使 用 了 foz 循 环 来 访问 各 点 ， 实 际 上 这 些 点 可 以 同 
时 访问 而 不 会 引起 算法 的 任何 变动 : 

for (iteration = 0; iteration < limit; iteration++) { 

forall (i = 1; i < n; I++) 
forall (j = 1; j < n; j++) 
hfil[jl = 0.25 * (h[li-1] [(j] + hfi+l1][j] + hli}[j-1] + h[il{j+1]); 

} 

在 这 个 结构 中 ,计算 (等 式 ) 右边 的 所 有 值 都 是 从 前 一 次 迭代 计算 出 来 的 ， 而 不 需要 任何 显 
式 的 数组 gf ] [ ] 。 我 们 通常 会 对 问题 进行 划分 ， 使 得 每 个 进程 处 理 多 个 点 。 尽 管 如 此 ， 我 们 
在 第 一 个 实例 中 仍 假定 一 个 进程 对 应 一 点 。 

每 个 进程 需要 4 个 邻近 点 。 按 自然 对 应 的 方式 将 进程 安排 进 网 格 是 最 方便 的 组 织 方法 ， 也 就 
是 说 ， 如 果 我 们 用 行 主 序 的 网 格 下 标 来 表示 进程 ， 其 中 ， 第 一 个 下 标 是 行 ， 第 二 个 下 标 是 列 。 对 
于 国定 的 迭代 次 数 ， 对 w，x，y 和 z 进 行 了 适当 的 初始 化 后 ， 进 程 记 (边界 点 除外 ) 的 形式 如 下 : 

for {iteration = 0; iteration < limit; iteration++) { 

g=0.25* (w+x+y+ 2); 

send (gg, Pi-1,j); /* non-blocking sends */ 
send(&g, Pi+1,j); 

send(&g, Pi,j-1); 


send(&g, Pi,j+1); 
recv (&w, Pi-1,j); /* synchronous receives */ 


El 


recv (&x, Pir1,j); 
recv(&y, Pi,j-1); 
recv (&z, Pi,j+1)} 
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每 个 进程 有 自己 的 迭代 循环 。 迭 代 次 数 必须 发 送 到 每 个 进程 。 在 等 待 recv ( ) 时 使 用 不 阻塞 的 
send( ) 很 重要 ; 如 果 不 这 样 ， 进 程 可 能 死 锁 ， 在 继续 进行 之 前 每 个 进程 都 在 等 待 ecv ( )。 
zecv( ) 必 须 同 步 ， 并 且 等 待 send( ) 。 每 个 进程 将 通过 recv ( ) 同 其 4 个 邻居 同步 。 这 里 ， 我 
们 使 用 的 是 一 种 局 部 同步 技术 。 没 有 必要 为 更 新 数组 使 用 单独 的 欠 代 。4 个 过 程 间 的 消息 传递 
如 图 6-14 所 示 。 







i send(g, Pi_10); 
列 send(g, Pi+1j); 
send(g, Pij-1); 






send(g, Pij+1); 
recv(w, Pi-1j); 
recv(x, Pi+13); 
recv(y, Pij-1); 
recv(z, Pij+1); 







































send(g, Pi-1;); 
send(g, Pi+1); 
send(g, Pij-1); 
send(g, Pij+1); 
recv(w, Pi_13); 
recv(x, Pi+1j); 
recv(y, Pij-1); 
recv(z, Pij+1); 


send(g, Pi-1j); 
send(g, Pi+1)); 
send(g, Pij-1); 
send(g, Pij+1); 
recv(w, Pi_13); 
recv(x, Pir1); 
recv(y, Pij-1); 
recv(z, Pij+); 


send(g, Pi_1j); 
send(g, Pi+1j); 
send(g, Pij-1); 
send(g,P + 
recv(w, Pi-1j) 
recv(x Pi+13); 
recv(y, Pij-1); 
recv(z, Pij+1); 
















send{g, Pi_12); 
Send(g, Pi+1j); 
send(g, Pij-1); 
send(g, Pij+1); 
recv(w, Pi_1)); 
recv(x, Pi+1j); 
recv(y, Pij-1); 
recv(z, Pij+1); 










图 6-14 热 分 布 问题 的 消息 传递 


184 如 果 进 程 在 达到 要 求 的 精度 时 就 可 以 停止 ,那么 需要 一 个 主 进程 来 接收 所 有 (从 ) 进程 
结束 的 通知 。 一 个 进程 可 以 在 (本 地 ) 达到 精度 时 向 主 进程 发 送 数据 ， 例 如 : 


iteration = 0; 
Go ({ 
iteration+t+; 
g=0.25* (w+x+y+ 2z); 
send(&g, Pi-1,j); /* locally blocking sends */ 
Send (&g, Pi+1,j)? 
send (&g, Pi,j-1); 
send (&g, Pi,j+1); . 
recv (&w, Pi-1,1); /* locally blocking receives */ 
recv(&x, Pi41,j); 
recv (gy, Pi,j-1); 
recv(&z, Pi,j+1)’; 
) while((!converged(i, j)) && (iteration < limit)); 
send(&g, &i, &j, &iteration, Pmaster)’; 
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对 于 在 边界 操作 的 进程 ， 我 们 可 以 用 进程 耳 来 决定 进程 在 数组 中 的 位 置 ， 从 而 有 如 下 代码 : 


if (last_row) w = bottom value; 
if {first row) x = top_value; 
if {first_columm) y = left,_value; 
it (last colunm) z = right_value; 
iteration = 0; 
Go { 
iteration+t+; 
g=0.25* (w+X+y+ 2); 
if !(first_row) send(&g, Pi-1,j); 
if ! (jast_row) send(&g, Pir1,j); 
if !(first_colum) sendl(g&g, Pi,j-1); 
if !1(last_colum) send(&g, Pi,j+1); 
if !(last_row) recv(&w, Pi-1,j); 
if !(first_row) recv(&x, Pi+1,j); 
if !(first_column) recv(&y, Pi,j-1); 
if !(last_colum) recv(&z, Pi,j+1); 
} while((!converged) && (iteration < limit)); 
send(&g, &i, &j, iteration, Pnaster); 


将 进程 标号 转换 为 实际 数字 对 我 们 来 说 是 一 件 很 简单 的 事情 。 假 定 进程 从 网 格 的 左上 角 开 始 按 


行 〈 自 然 排序 ) 编号 ， 进 程 P; 就 需 同 Pi-! ( 左 )、 POP， Pi 
Pi ( 右 )、P (上 ) 和 Piix (下 ) (0<i< 已 ) 
进行 通信 。 

4. 划分 


显然 ， 我 们 一 般 会 给 每 个 处 理 器 分 配 多 个 
点 ， 因 为 处 理 器 数 往往 比 点 数 少 得 多 。 可 将 点 
的 网 络 分 割 成 方块 或 条 ( 列 )， 如 图 6-15 所 示 
(p 分 割 )。 划 分 方法 与 第 3 章 的 图 像 位 图 划分 方 条 ( 列 ) 

法 一 致 ， 不 过 现在 划分 间 存 在 通信 关系 。 所 以 图 6-15 热 分 布 问 题 的 带 状 划 分 
我 们 要 使 通信 最 小 化 。 对 于 到 个 点 、P 个 处 理 器 且 块 大 小 相等 ， 每 个 划分 有 jp 个 点 。 图 6-16 
示 出 两 种 划分 方法 的 划分 间 通 信 关 系 。 





Shs 
如 


条 
图 6-16 划分 后 的 通信 关系 


在 块 划分 中 ， 一 个 块 要 与 四 个 相 邻 块 交换 四 条 边 上 的 点 的 值 ， 每 个 进程 在 每 次 迭代 中 发 送 
四 条 消息 并 接收 四 条 消息 (假设 一 条 边 上 的 点 的 数据 被 打包 成 一 条 消息 )。 因 而 ， 通 信 时 间 为 : 


tommsg = sli + 局 


一 
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这 个 方程 成 立 的 前 提 是 至 少 有 一 块 拥有 四 个 相 邻 块 ， 即 p > 9。 

在 条 划分 中 ， 一 个 块 最 多 只 与 两 个 相 邻 块 交换 两 条 边 上 的 点 的 数据 。 进 程 在 每 次 迭代 中 
发 送 两 条 消息 和 接收 两 条 消息 (同样 设 一 条 边 上 的 所 有 点 的 数据 被 打包 成 一 条 消息 )。 因 而 ， 
通信 时 间 为 : 

fcommeol = 4(fsarup + Nigata ) 
值得 注意 的 是 通信 时 间 与 处 理 器 数目 p 无 关 ， 即 与 划分 数 无 关 。 

这 两 种 通信 时 间 均 将 受 通信 和 启动 时 间 影 响 。 例 如 ， 设 kame = 10000、taauas = 50( 与 图 6-11 中 
一 样 ) 且 性 =1024。 在 这 种 情况 下 条 划分 的 通信 时 间 是 46400 (个 时 间 单 位 )， 不 管 p 取 何 值 。 块 
划分 的 通信 时 间 是 80000 + 12800/VP (个 时 间 单 位 )。 不 论处 理 器 数目 是 多 少 ， 这 个 时 间 都 要 
比 条 划分 的 通信 时 间 长 。 但 是 ， 如 果 启 动 时 间 等 于 100， 那 么 条 划分 的 通信 时 间 为 6800， 而 块 
划分 的 通信 时 间 为 800 + 12800/VP 。 当 p > 4 时 ， 条 划分 的 通信 时 间 比 块 划分 的 通信 时 间 长 。 

一 般 来 说 ， 启 动 时 间 长 时 条 划分 较 好 ， 启 动 时 间 短 时 则 块 划分 较 好 。 对 前 面 两 个 等 式 ， 
如 果 : 


se + 万 oe > 4(fanup 十 nfsawa ) 


即 
人 2 
> 中 荆 - 一 一 
Lstartup "\ Vp | 
则 块 划分 的 通信 时 间 长 于 条 划分 的 通信 时 间 (p > 9)。 当 p 缓 慢 增 长 时 ， 用 我 们 的 假设 数据 求 
得 1600， 不 等 式 右 边 趋 于 yntss。。 例 如 ， 当 tanwp = 1200 时 ，p = 64 是 条 划分 优 还 是 块 划 分 优 
的 分 界 点 。 图 6-17 示 出 了 p = 9、16、64、256 和 1024 时 的 情况 。 
2000 


f 


data 


条 划分 优 


{startup 1000 


块 划分 优 





处 理 器 , p 
图 6-17 启动 时 间 与 块 划分 和 条 划分 的 关系 


对 于 大 多 数 系统 特别 是 工作 站 机 群 ， 启 动 时 间 都 比较 长 。 所 以 ， 看 上 去 条 划分 方法 是 更 
合适 的 选择 ， 因 为 消息 只 是 左右 传递 ， 而 不 是 考虑 上 下 左右 传递 ， 所 以 对 编程 来 讲 它 是 最 容 
易 的 划分 。 

5. 实现 细节 

我 们 必须 在 一 个 消息 中 传送 整 列 数据 点 给 相 邻 进程 。 当 数组 以 行 主 序 存储 时 (如 在 C 语 言 
中 那样 )， 为 方便 起 见 ， 我 们 可 以 将 点 的 二 维 数组 划分 成 行 而 非 列 。 只 要 简单 地 指明 行 的 起 始 
地 址 和 存储 在 其 中 元 素 的 邻近 组 ) 数据 元 素 个 数 就 能 把 一 行 数据 在 一 个 消息 中 传送 出 去 。 
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如 果 我 们 不 想 考虑 实际 存储 结构 ， 可 用 一 个 单独 的 一 维 数组 保存 要 传送 到 邻接 进程 的 点 。 下 
面 的 讨论 就 假设 划分 按 行 而 不 是 列 ， 不 过 这 一 实现 细节 对 算法 本 身 设 有 影响 。 

除了 将 点 划分 成 行 外 ， 图 6-18 还 示 出 了 在 每 条 边 上 具有 附加 点 的 行 的 每 个 进程 ， 附 加 称 
为 幻象 点 (ghost point)， 附 加 点 行 用 来 保存 来 自 邻 接 边 的 值 。 在 相 邻 的 每 个 进程 中 增加 一 个 
点 数组 是 为 了 保存 幻象 行 ， 幻 象 点 的 引入 是 为 了 方便 编程 。 


Ml | 由 进程 保 
| | 存 的 点 阵 
点 的 一 行 74 人 \ \ | 
| 1 1 1 1 | 
幻像 点 -EH :起 ;三 :二 :二 :二 :二 :站 二 
1 上 1 1 
-一 一 1 
|. 了 3 4 由 进程 i+ 1 
| | 保存 的 点 阵 
| 进程 + 1 | 


图 6-18 每 个 进程 中 数组 构成 连续 的 行 ， 包 括 幻 象 点 
进程 P (不 包括 边界 上 的 进程 ) 的 程序 代码 形式 如 下 : 


for (k = 1; k <= n/p; K++) /* compute points in partition */ 
for (j = 1; j <= n; j++) 
g[k][j} = 0.25 * (h[Kk-1][j] + h[k+1] ([j] + h[k] {ji-1] + h[k] [(j+1]); 
for (k = 1; k <= n/p; K++) /* update points */ 
for (j] = 1; j <= n; j++) 
hr[k][Ijl] = gtx} [jij]; 
send{gg[1] [1}, n, Pi-1); /* send row to adjacent process */ 


send{(&g[n/p] [1}], n,; Pi+1); 
recv(&h[0] [1}, n, Pi-1); /* receive row from adjacent process */ 


recv (gh[n/p + 1][1], n, Pi+1)}; 


安全 与 死 锁 ”上面 所 有 的 代码 中 ， 所 有 进程 都 先 发 送 它们 的 消息 然后 才 开 始 接 收 它们 的 
消息 ， 从 MPI 的 领域 来 看 ， 这 样 是 不 安全 的 。 这 是 因为 程序 的 正确 性 依赖 于 send( ) 的 缓冲 。 
MPI 中 不 指明 缓冲 容量 。 如 果 一 个 发 送 例 程 在 调用 时 没有 足够 的 可 用 存储 区 ， 那 么 这 个 例 程 
就 应 延 时 ， 直 到 有 足够 的 存储 区 或 消息 绕 过 缓冲 发 送出 去 。 因 而 ， 本 地 阻塞 的 send ) 在 行为 
上 就 相当 于 一 个 同步 的 send( ) ， 仅 当 匹 配 的 zecv ( ) 执行 时 才 返 回 。 如 果 所 有 的 send( ) 都 
是 同步 的 , 那么 匹配 的 recv( ) 可 能 永远 无 法 执行 ,这 种 情况 就 会 导致 死 锁 。 对 于 我 们 的 问题 ， 
如 果 n/p 相 对 较 小 ， 那 么 有 足够 的 存储 空间 可 用 一 一 你 可 能 会 产生 疑问 : 为 什么 系统 要 提供 一 
个 不 安全 的 本 地 阻塞 型 发 送 消 息 的 例 程 呢 ? 

改造 成 安全 代码 的 一 种 方法 是 在 相 邻 进程 中 调换 send( ) 和 recv ( ) 的 使 用 次 序 ， 使 得 仅 
有 一 个 进程 先 执 行 sSend( ) 。 那 么 即使 是 同步 的 send( ) 例 程 也 不 会 导致 死 锁 。 事 实 上 ， 一 种 
测试 程序 安全 性 的 好 办 法 是 把 程序 中 的 消息 传递 例 程 替 换 成 同步 的 版 本 。 

调换 了 send( ) 和 recv( ) 次 序 的 安全 的 代码 如 下 : 


if {({i % 2) == 0) { /* even-numbered processes */ 





send(&g[1] [1], n, Pi-_1); 
recv{&h[0} [1}, n, Pi-1); 
send(&g{n/p] [1], n, Piy1)}; 
recv(&h{n/p + 1][1], n, Pis1); 
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} else { /* odd-numbered processes */ 

recv(&hin/p + 1] [1], n, Piri}; 
send(&g[n/P] [1], n, Pir1); 
recv(&h[0] [1], n, Pi-1); 
send(&g[1] [1], n, Pi-1); 

} 

本 例 中 调换 send ( ) 和 recv( ) 的 使 用 次 序 容易 做 到 ， 其 他 情况 下 可 能 要 困难 一 些 。 

MPI 提 供 了 安全 通信 的 几 种 不 同方 法 : 

。 复 合 发 送 接收 例 程 : MPI_Sendrecv() (此 例 程 保证 不 会 死 锁 )。 

“缓冲 发 送 例 程 : MPI_Bsend( ) 一 一 由 用 户 显 式 提供 存储 区 空间 。 

。 非 阻塞 例 程 : MPI_Isend( ) 和 MPI_Irecv () 一 一 例 程 立即 返回 ， 另 外 用 一 个 独立 的 
例 程 来 测试 消息 是 否 已 被 接收 (MPI_Wait()、MPI_Waital1lL()、MPI_Waitany( )、 
MPI_Test()、MPI_Testall() 或 者 MPI_Testany())。 

使 用 第 三 种 方法 的 伪 代 码 段 如 下 : 

isend(g&g[1] [1], n, Pi-1); 

isend(&g [n/p] [1], n, Pi+1); 

irecv (gh[0] [1], n, Pi-1); 

irecv(&h[n/p + 1][1], n, Pir1); 

waitall (4); 


本 质 上 来 说 ， 等 待 例 程 成 为 一 个 障 栅 ， 等 待 所 有 的 消息 传递 例 程 完成 。 
6.3.3 细胞 自动 机 


我 们 在 此 要 提 及 一 个 特别 适合 于 同步 迭代 的 概念 ， 细 胞 自动 机 (cellular automaton )。 在 
这 个 方法 中 ， 问 题 空间 首先 被 分 为 很 多 胞 元 。 每 个 胞 元 总 是 处 于 有 限 个 状态 中 的 一 个 。 按 某 
种 规则 ， 胞 元 受 它 邻 居 的 影响 ， 并 且 “ 一 代 ” 中 的 所 有 胞 元 同时 受 影响 。 这 些 规则 被 重新 应 
用 到 子 代 中 ， 一代 一 代 地 ， 胞 元 进行 演化 即 改变 状态 。 

最 著名 的 细胞 自动 机 是 剑桥 数学 家 John Horton Conway 设 计 的 “生命 游戏 "， 由 Gardner 出 
版 [Gardner，1967]。Gardner 指 出 细胞 自动 机 的 概念 可 以 追溯 到 20 世 纪 50 年 代 早期 汉 : 诺 依 晶 
的 研究 工作 。 生 命 游戏 是 一 种 木板 游戏 ; 木板 由 一 个 (理论 上 是 无 限 的 ) 二 维 的 胞 元 数组 组 
成 。 每 一 个 胞 元 中 可 能 有 一 个 有 机 体 ， 包 括 对 角 线 邻接 的 胞 元 它 有 8 个 相 邻 胞 元 。 最 初 一 些 胞 
元 处 于 同一 种 模式 ， 然 后 应 用 下 列 规 则 : 

1) 有 2 个 或 3 个 邻居 的 有 机 体 可 以 幸存 到 下 一 代 。 

2) 有 4 个 或 更 多 邻居 的 有 机 体 由 于 过 多 而 死亡 。 

3) 有 1 个 或 没有 邻居 的 有 机 体 由 于 隔离 而 死亡 。 

4) 与 3 个 非 空 邻居 邻接 的 空 胞 元 可 以 产生 一 个 有 机 体 。 
这 些 规则 是 由 Conway 从 “长 期 的 实验 中 ”推导 出 来 的 。 

另外 一 个 简单 有 趣 的 细胞 自动 机 的 例子 是 海里 的 “小 鱼 和 小 鱼 ”， 它 们 中 的 每 一 个 都 有 自 
己 的 行为 规则 。 在 [Fox et al.，1988] 中 研究 过 这 个 问题 的 一 个 二 维 版 本 。 海 洋 可 以 看 作 是 一 个 
三 维 的 胞 元 数组 。 每 一 个 胞 元 可 能 有 一 条 鱼 或 一 条 闭 鱼 (但 不 能 拥有 二 者 )。 鱼 遵循 下 列 规则 
移动 : 

1) 车 有 1 个 相 邻 的 空 胞 元 ， 鱼 移动 到 这 个 胞 元 。 

2) 若 有 2 个 或 多 个 相 邻 的 空 胞 元 ， 鱼 随机 移动 到 其 中 的 一 个 中 。 
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3) 车 设 有 相 邻 的 空 胞 元 ， 鱼 呆 在 原 处 不 动 。 

4) 若 鱼 移动 并 且 到 了 繁殖 期 ， 它 就 产 下 一 条 小 鱼 ， 小 鱼 呆 在 清空 的 胞 元 中 。 

5) 鱼 经 历 x 代 后 死去 。 

阔 鱼 遵循 下列 规则 移动 : 

1) 若 有 1 个 相 邻 的 胞 元 被 鱼 占 据 ， 那么 效 鱼 移动 到 这 个 胞 元 并 吃 掉 这 条 和 鱼 。 

2) 若 有 2 个 或 多 个 相 邻 的 胞 元 被 鱼 占 据 ， 那 么 柳 鱼 随机 移动 到 其 中 一 个 胞 元 并 吃 掉 这 条 鱼 。 

3) 若 邻 近 胞 元 中 没有 鱼 ， 鳌 鱼 按 鱼 移动 相同 的 方式 移动 到 一 个 未 被 占领 的 相 邻 胞 元 。 

4) 若 效 鱼 移动 并 且 到 了 繁殖 期 ， 它 就 产 下 一 条 小 党 鱼 ， 小 党 鱼 呆 在 清空 的 胞 元 中 。 

5) 车 效 鱼 经 历 y 代 后 还 未 吃 到 鱼 ， 那 么 它 就 死去 。 

习题 6-21 描 述 了 一 个 类 似 的 狐狸 和 兔子 的 问题 。 免 子 的 行为 是 欢快 地 在 周围 跳动 ， 而 狐 
狸 的 行为 则 是 车 遇 到 兔子 就 吃 掉 它 。 

有 许多 细胞 自动 机 的 重要 应 用 ,可 以 避免 求解 微分 方程 。 例 如 ， 对 于 给 定 流体 / 气 体 动力 
学 的 规则 ， 流 体 和 气体 绕 物 体 的 流动 或 气体 扩散 就 能 够 用 这 种 方法 建 模 。 生 物 的 成 长 也 能 用 
这 种 方法 建 模 。 在 习题 中 给 出 的 例子 还 包括 穿 过 机 可 的 空气 流动 (习题 6-24) 和 海滩 或 河岸 的 
沙子 的 流动 /侵蚀 〈 习 题 6-23 )。 除 了 这 些 ， 当 然 还 有 许多 其 他 细胞 自动 机 的 应 用 (习题 6-22 ) 。 


6.4 部 分 同步 方法 


很 显然 ， 同 步 导 致 性 能 的 明显 降低 。 在 本 章 的 最 后 这 小 节 中 ， 我 们 将 探讨 如 何 减少 在 前 
面 讨论 过 的 同步 迭代 问题 中 的 同步 开销 。 我 们 以 热 分 布 问题 作为 例子 。 其 并 行 代码 如 下 : 
for (iteration = 0; iteration < limit; iteration++) { 
forall (i = 1; i < n; I++) 
forall (j = 1; j < n; j++) 
hfilfj = 0.25 * (hfi-1}[j] + hfi+1][j] + hlil[j-1} + h[il[j+1]); 
} 
其 中 假设 计算 表达 式 的 右边 各 值 是 由 前 一 迭代 计算 得 到 的 。 因 此 代码 是 基于 前 一 迭代 值 来 计 
算 下 一 迭代 值 的 。 这 是 传统 的 雅 可 比 迭 代 方 法 ,但 它 需要 一 个 进程 的 全 局 同步 点 ( 障 栅 ) 以 
等 待 直至 所 有 进程 都 完成 了 它们 的 计算 。 是 完成 障 栅 同 步 所 需 时 间 而 不 是 计算 时 间 导 致 了 性 
能 的 降低 。 我 们 在 前 面 已 提 及 在 计算 中 使 用 某 些 当前 迭代 值 的 可 能 性 ， 如 在 高 斯 - 塞 德尔 先 代 
方法 中 ， 但 因为 所 有 进程 在 同一 迭代 中 一 起 操作 ， 所 以 仍 需 要 一 个 障 栅 来 获得 同步 。 如 果 将 
该 障 栅 取 消 ， 则 将 允许 某 些 已 完成 本 次 迭代 的 进程 在 其 他 进程 未 完成 本 次 选 代 之 前 继续 执行 
后 面 的 迭代 ， 这 将 导致 这 些 向 前 执行 的 进程 使 用 不 仅仅 是 前 一 次 迭代 所 得 到 的 值 ， 而 可 能 是 
前 一 次 甚至 前 几 次 迭代 所 得 到 的 值 。 该 方法 被 称 为 异步 迭代 法 (asynchronous iterative ) 。 在 
异步 移 代 中 ,收敛 的 数学 条 件 可 能 更 为 严格 ， 即 除非 某 些 数学 条 件 存在 ， 否 则 计算 可 能 不 收 
化 。 要 使 该 方法 收敛 ， 就 不 允许 每 个 进程 使 用 以 前 的 迭代 值 。[Chazan and Miranker，1969] 年 
引入 了 一 种 称 为 无 序 松弛 (chaotic relaxation) 的 异步 迭代 方法 ， 其 收敛 条 件 为 如 下 : 


“ 必 存 在 一 个 固定 正 整数 * 使 得 在 求 第 ;次 迭代 时 , 进程 不 能 使 用 第 /次 迭代 中 形成 的 任何 值 ， 


如 果 j<i~-s”[Baudet，1978]。 
该 条 件 指出 对 并 行 代 码 的 一 个 简单 变化 就 允许 进程 继续 执行 直到 进程 试图 使 用 "次 友 代 前 的 
值 。 每 个 已 存储 的 值 将 需要 一 个 “时 间 蕉 ”(time stamp ) ， 即 与 该 存储 值 相关 的 迭代 号 。 
检查 每 次 选 代 是 否 收敛 的 最 后 部 分 代码 也 可 省 去 。 如 果 在 进行 收敛 检查 前 允许 继续 执行 
若干 次 大 代 则 更 好 。 将 无 序 松弛 和 延 述 收敛 检查 两 者 结合 起 来 就 可 允许 每 个 进程 在 同步 前 完 
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成 次 选 代 ， 而 且 当 进 程 向 前 执行 时 仍 可 更 新 其 本 地 所 存储 的 值 。 在 完成 每 s 次 迭代 后 记录 最 
大 的 偏离 值 ， 接 着 就 进行 收敛 检查 。 在 任何 时 候 ， 相 应 于 实际 迭代 正在 使 用 的 数组 元 素 ， 可 
能 来 自 较 早 的 迭代 ， 但 不 会 超过 前 s 次 迭代 。 在 消息 传递 的 方案 中 ， 所 有 从 其 他 进程 得 到 的 数 
据 值 将 来 自 进程 间 最 近 一 次 通信 的 前 * 次 迭代 。 在 进程 中 的 计算 所 用 到 的 数据 值 来 自 当 前 和 迭代 
或 是 以 前 的 迭代 ， 这 取决 于 顺序 计算 得 到 的 数据 值 的 次 序 。 

应 注意 的 是 ， 不 能 将 以 上 叙述 方法 应 用 到 所 有 的 同步 问题 中 ， 例 如 胞 元 自动 机 操作 就 不 
适合 这 种 方法 。 


6.5 小 结 


本 章 介绍 了 以 下 内 容 : 

“ 障 椰 的 概念 及 其 实现 (包括 全 局 和 局 部 障 栅 ) 
“数据 并 行 计算 

“ 同步 迭代 概念 

* 使 用 全 局 障 机 和 局 部 障 机 的 实例 

* 安全 通信 的 概念 

* 细胞 自动 机 

* 部 分 同步 方法 


推荐 读物 


在 大 多 数 并 行 编程 的 教科 书 中 都 讨论 过 障 机 的 概念 。 除 了 这 里 讨论 的 障 机 的 软件 实现 ， 
一 些 多 处 理 机 系统 (例如 CRAY T3D ) 对 障 栅 提 供 了 硬件 上 的 支持 。[Pacheco，1997] 开 发 了 
雅 可 比 迭 代 的 MPI 代 码 ， 在 {Snir et al.，1996] 也 用 MPI 代 码 实现 了 雅 可 比 和 迭代 ， 并 着 重 讨论 了 
安全 程序 及 利用 MPI 的 不 同 特 性 如 何 编写 可 替代 代码 ， 如 MPI_Sendrecv ( ) 例 程 、 张 贴 例 程 
和 空 进程 。 雅 可 比 氨 代 的 MPI 代 码 的 细节 也 可 在 其 他 MPI“ 参 考 文献 ”中 见 到 ，[Gropp，Lusk， 
and Skjellum，1999] 中 也 包括 MPI 特 性 的 使 用 ， 如 拓扑 。 关 于 计算 与 通信 的 平衡 的 讨论 可 在 
[Snir et al.，1996] 和 [Wilson，1995] 中 找到 。 除 了 本 章 讨论 的 全 局 同步 技术 ， 还 有 不 严格 结构 
化 的 同步 方式 或 松散 的 同步 方式 ， 此 时 进程 间或 地 进行 同步 。 一 些 松散 同步 技术 的 应 用 在 
[Fox，Williams ，and Messina，1994] 中 有 详细 的 讨论 。 

由 于 [Chazan and Miranker，1969] 的 介绍 ， 其 他 几 位 作者 包括 [Baudet，1978] 和 [Evans and 
Yousif，1992] 已 经 对 无 序 松弛 进行 了 研究 ， 尽 管 在 过 去 的 并 行程 序 设计 和 算法 的 教科 书 中 忽略 
了 这 一 点 。 当 无 序 松弛 可 以 应 用 时 ， 比 起 全 同步 方法 来 在 执行 速度 方面 它 有 很 大 的 改进 潜能 。 
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习题 
科学 /数值 习题 


6-1 


6-2 


6-3 


6-4 


6-5 
6-6 


6-7 
6-8 
6-9 


实现 并 测试 图 6-4 中 的 计数 器 障 栅 。 是 否 有 必要 为 发 送 和 接收 使 用 阻塞 或 同步 的 例 程 ? 请 


解释 原因 。 


编写 一 个 障 栅 ，barrier (procNum), 这 个 障 栅 将 阻塞 直到 procNum 个 进程 到 达 障 栅 ， 


然后 释放 这 些 进 程 。 允 许 障 机 以 不 同 数 目的 进程 和 以 不 同 的 procNum 值 被 调用 。 
分 析 下 述 代 码 中 障 栅 的 时 间 开 和 销 : 

tl = time(); 

Barrier (group) ; 


t2 = time(); 
printf ("Elapsed time = %", difftime(t2, t1)); 


( MPI 中 的 障 栅 例 程 是 MPI_Barrier (Communicator)， 时间 例 程 是 MPI_Wtime( )。) 


要 求 考虑 进程 数 不 同 的 情况 。 


用 6.1.3 市 介绍 的 树 结构 ， 编 写 代码 以 实现 8 个 进程 的 障 栅 ， 并 与 其 他 障 栅 调 用 (如 MPI 


的 MPI_Barrier()) 进行 比较 。 
实现 6.1.4 节 中 介绍 的 蝶 形 障 栅 ， 并 与 其 他 障 栅 调 用 进行 比较 。 


实验 证 明 你 的 系统 使 用 非 阻塞 发 送 例 程 时 在 何 点 达到 缓冲 的 限额 。 如 果 要 求 超过 有 效 容 
量 的 缓冲 ， 有 什么 后 果 ? ( 可 用 缓冲 的 容量 可 能 与 用 于 其 他 用 途 的 存储 器 容量 有 关 。) 


不 具有 可 交换 性 的 操作 如 除法 是 否 可 用 于 图 6-8 的 前 缀 运算 ? 
计算 图 6-8 的 前 缀 运算 的 效率 。 


给 定 一 个 边 长 分 别 为 x 和 y 的 长 方形 区 域 ， 通 信 开 销 与 周 长 2 (x + y) 成 比例 ,证 明 当 x = y 


( 即 成 正方 形 ) 时 通信 开销 最 小 。 


6-10 编写 一 个 并 行程 序 求解 基于 下 面 的 有 限 差分 方程 的 一 维 问题 
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6-11 


6-12 


6-13 


6-14 
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Xil + Kitt 
Xi 一 7 

其 中 0 < ig 1000， 并 设 xo = 10，xioo = 250。 
在 6.3.2 节 的 热 分 布 问题 中 我 们 假设 了 一 个 正方 形 阵列 。 如 果 这 是 个 长 有 n 个 点 宽 有 mm 个 
点 的 列 阵 ， 那 么 选择 块 划分 或 条 划分 的 数学 条 件 是 什么 ? 
分 别 用 6.3.2 节 中 介绍 过 的 不 同 终止 方法 的 收敛 精度 分 析 热 分 布 问题 。 根 据点 的 现 值 与 
下 一 次 值 的 差 值 来 判断 终止 条 件 是 否 合适 ? 或 者 是 否 有 必要 使 用 一 个 更 复杂 的 终止 条 
件 ? 这 里 要 分 析 的 基本 问题 是 “每 个 点 的 计算 值 已 在 其 前 一 次 计算 值 的 1% (譬如 说 ) 
之 内 时 ， 解 的 精度 是 多 少 ? ” 
编写 一 个 并 行程 序 模拟 6.3.3 节 描述 的 生命 游戏 ， 用 实验 说 明 使 用 不 同 初始 生物 总 数 时 
实验 比较 在 6.3.2 节 中 介绍 过 的 热 分 布 问题 的 全 局 同步 和 部 分 同步 的 实现 。 对 6.4 节 中 说 
明 的 收敛 条 件 试 用 不 同 的 s 值 。 书 写 一 个 有 关 报 告 叙述 你 的 发 现 包 括 你 所 获得 的 特定 的 
速度 改进 。 
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图 6-19 表 示 一 个 房间 ， 有 四 堵 墙 和 一 个 壁炉 。 墙 的 温度 是 20"C， 壁 炉 的 温度 是 100"C。 
编写 一 个 并 行程 序 用 雅 可 比 和 迭代 法 计算 房间 里 的 温度 , 

并 以 10°C 为 温度 间隔 ， 用 Xlib 库 或 其 他 图 形 库 的 绘图 2C 人 贷 R,。 ovc 
例 程 绘 出 温度 分 布 曲线 (彩色 更 好 )， 运 行 时 间 也 要 显 

示 出 来 。( 这 道 程序 设计 题 可 以 在 曼 德 勃 罗 特 问题 之 后 

做 ， 因 为 它 可 以 使 用 同样 的 图 形 例 程 调用 。) 

重 做 习题 6-15， 但 现在 是 一 个 直径 为 20 英 尺 S 的 圆 形 房 !0 英 人 

间 ， 中 心 有 一 个 100"C 的 点 热源 ， 墙 的 温度 是 20"C。 

模拟 一 个 红绿灯 控制 的 十 字 路 口 ， 如 图 6-20 所 示 。 车 

辆 从 四 个 方向 驶 过 来 ， 要 么 穿 过 十 字 路 口 直 走 ， 要 么 -< 1 

左 转弯 要 么 右 转变。 平均 有 70% 的 车 辆 直 走 ，10% 的 图 6-19 (习题 6-15) 房间 
右 转 弯 ，20% 的 左 转弯 。 每 辆 车 以 同样 速度 到 达 路 口 。 
用 细胞 自动 机 方法 设计 一 套 行驶 规则 解决 这 个 问题 ， 


编写 并 行程 序 实现 它们 并 用 你 自己 的 测试 数据 (如 车 
辆 数 和 位 置 ) 来 测试 它 。 | ， 
编写 一 个 并 行程 序 模拟 6.3.3 节 中 描述 的 问 鱼 和 小 鱼 的 行 @ 1 |@ 


动 。 输 入 参数 包括 海洋 面积 、 冰 鱼 和 小 鱼 的 数量 、 苇 鱼 
和 小 鱼 在 海洋 中 的 初始 位 置 、 繁 殖 年 龄 以 及 奖 鱼 耐 侯 俱 By  - 


时 间 。 对 角 相 邻 的 胞 元 不 作为 邻接 胞 元 。 所 以 一 个 胞 元 ®| ) 站 
( 边 上 胞 元 除外 ) 共有 六 个 邻接 胞 元 。 每 一 代 北 鱼 和 小 | I | 
y 





鱼 的 年 龄 以 1 递增 。 修 改 模拟 程序 考虑 水 流 的 因素 。 
Michaels 博 士 以 心不在焉 闻名 校园 。 因此， 他 去 
Uwharrie 国 家 森林 公园 野营 旅行 时 ， 毫 不 奇怪 他 会 忘 。 图 6-20 (习题 6-17) 十 字 路 口 


日 1 英尺 =0.305m 
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记 带 地 图 和 指南 针 。 幸 运 的 是 ， 他 带 了 一 个 具有 新 型 蜂窝 调制 解 调 器 的 笔记 本 计算 机 。 
更 幸运 的 是 ， 他 让 你 留 在 计算 机 科学 大 楼 做 研究 项 目 ! 

你 对 他 的 这 次 旅行 有 种 预感 ， 所 以 你 已 下 载 了 这 片 森林 的 详细 地 图 ， 这 些 最 新 的 
NASA 卫 星 图 像 表 示 了 每 棵 树 、 每 处 悬崖 、 每 条 路 的 位 置 。 数 据 以 “ 胞 元 ”阵列 的 格 
式 存储 ， 胞 元 是 边 长 为 0.3 米 的 正方 形 。 每 个 胞 元 代表 的 森林 区 域 的 特征 用 一 个 字母 
“T”、“C”、“O” 或 “R” 表 示 : 

“T” 这 个 区 域 有 一 棵 不 能 通过 的 树 ; 

“C” 这 个 区 域 有 一 处 陡峭 的 绝壁 (悬崖) ; 

O” 这 个 区 域 是 块 空地 ， 教 授 能 通过 ; 

“R” 这 个 区 域 是 条 道路 或 是 标 有 记号 的 小 路 ， 教 授 能 通过 。 

所 以 ， 你 对 Michaels 博 士 发 来 电子 邮件 请 求 你 的 帮助 并 不 感到 奇怪 。 由 于 医疗 条 件 
的 原因 他 越 早 离开 森林 越 好 。 他 要 求 你 编 一 个 程序 以 完成 以 下 两 件 事情 : 

1) 识别 他 现在 在 森林 中 的 位 置 。 

2) 指导 他 离开 森林 到 森林 南边 界 的 路 上 去 。 

你 的 程序 可 以 询问 教授 他 现在 所 处 “小 胞 元 ”的 前 后 后 左右 都 有 什么 东西 作为 每 
次 询问 的 响应 ， 他 发 回 四 个 字母 。 例 如 ，Qnuery( ) 的 结果 可 能 是 “T”、 “O”、“C”, 
说 明 他 的 前 面 有 棵 大 树 挡 路 ， 可 以 向 后 或 向 左 转 ， 他 的 右边 有 一 处 通 不 这 的 绝壁 。 这 
些 信息 上 暗示 他 处 于 一 个 包含 “0” 或 “R” 的 胞 元 中 。 

你 的 程序 可 以 通过 发 送 “F”( 向 前 移 一 个 胞 元 )、“B”( 向 后 移 一 个 胞 元 )、“L” 
(向 左 移 一 个 胞 元 ) 或 “R”( 向 右 移 一 个 胞 元 ) 告诉 教授 向 哪个 方向 移 一 个 胞 元 。 语 法 
上 ，Move (“L”) 表示 向 左 移 一 个 胞 元 ， 其 他 以 此 类 推 。 记 住 ， 如 果 你 告诉 他 移 到 一 
个 有 树 的 胞 元 中 ， 而 最 后 不 得 不 返回 时 ， 你 的 成 绩 会 被 扣 减 ; 如 果 你 竟然 把 教授 引 到 
一 个 包含 悬崖 的 胞 元 去 ， 你 除了 受 良心 访 责 外 ， 成 绩 报告 单 上 也 会 多 一 个 “F”( 教 授 
的 亲戚 会 把 这 些 都 记 入 档案 )。 

你 的 程序 要 用 尽 可 能 少 的 询问 /移动 来 识别 出 教授 的 位 置 并 指引 教授 通过 最 短 的 路 
线 到 沿 着 森林 南边 界 的 路 上 去 。 

Query( ) 和 Move( ) 国 数 的 原型 定义 如 下 : 


char * Query {void) 
/* Query returns a pointer to a string of four characters */ 


int Move (char direction); 

/* if the move is successful, Move returns the value 0. If it is unsuccessful 
because you directed him into a tree, Move returns a -1. If Move is 
unsuccessful because you Girected the professor off a cliff, Move returns a 
-100 indicating you just failed your research project work and need to call 
the coroner. */ 


提示 : 教授 可 能 面 朝 东南 西北 任 一 个 方向 ， 且 没有 指南 针 。 因 此 ， 你 须 将 他 对 
Query( ) 的 回答 的 模式 与 你 的 地 图 数据 在 四 个 可 能 方向 上 进行 匹配 ， 缩 小 他 所 在 位 置 的 
可 能 范围 。 然 后 你 指导 他 移动 (Move( ))， 然 后 再 次 询问 (Query( ))。 当 你 最 终 识别 
出 他 的 位 置 时 ， 你 须 找 出 走出 森林 到 南边 界 路 上 的 最 短路 线 。 

Eric 对 了 昨 晚 看 的 延迟 像 带 神秘 侦探 片 “ 谁 下 的 手 ? ”的 最 后 一 个 片断 着 了 迷 ， 侦 探 Sam 
Shovel 对 几 种 笔迹 样本 进行 模式 匹配 的 天 才 是 解 开 谜团 的 关键 。Eric 决 定 写 一 个 简单 的 
程序 来 模仿 Sam 的 模式 匹配 行为 。Eric 做 的 第 一 件 事 是 在 15 x 21 格 子 上 创建 26 个 “完美 ” 
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的 印刷 体 字母 ， 作 为 与 手写 样本 匹配 的 模板 ， 这 些 模板 然后 逐一 与 实际 的 手写 样本 加 
以 比较 ， 从 中 推导 出 实际 的 手写 字母 。 他 的 第 一 次 试验 竟 是 一 败 涂 地 ! 很 快 他 发 现 失 
败 原 因 是 没有 一 个 手写 字母 能 与 他 的 “完美 ”字母 完全 匹配 ， 结 果 当 然 是 半 个 赚 疑 犯 
也 识别 不 出 。 

他 决定 试 试 三 种 截然 不 同 的 方法 。 第 一 种 方法 是 使 用 一 个 流水 线 系统 ， 将 待 辨识 
字母 缩放 到 标准 大 小 ， 放 于 格子 中 心 ， 定 出 它 的 对 称 轴 后 把 它 旋转 到 正常 方向 ， 然 后 
与 “完美 ”字母 表 中 字母 比较 。 第 二 种 是 应 用 数学 方法 ， 对 赚 疑 犯 牌 牌 扭 扭 的 字母 进 
行 过 滤 ， 并 将 其 平滑 以 去 除 噪声 ， 再 将 它 进行 数学 变换 ， 将 变换 结果 与 “完美 ”字母 
的 同样 变换 的 结果 进行 匹配 。 第 三 种 方法 中 ，Eric 决 定 进 一 步 简化 问题 ， 根 据 15 x 21 
格子 上 待 辨识 字母 与 “完美 ”字母 匹配 的 格子 数目 来 决定 匹配 结果 。 他 在 格子 上 移动 
待 辨 识字 母 ， 试 图 得 到 与 “完美 ”字母 的 最 佳 匹配 ， 记 下 匹配 的 格子 数目 作为 本 次 匹 
配 结果 。 对 余下 的 25 个 字母 ， 重复 以 上 匹配 过 程 ， 最 后 ， 选 取 有 最 多 匹配 格子 数 的 字 
母 作为 识别 结果 。 

简单 分 析 Eric 的 匹配 方法 ， 你 认为 哪 一 种 最 适 于 并 行 处 理 ? 
从 前 有 一 个 岛 ， 岛 上 仅 有 野兔、 狐狸 和 植被 。 此 岛 形 如 标准 的 棋盘 。 当 地 几 个 地 理学 
者 在 它 上 面 均匀 地 画 了 一 些 线 ， 把 岛 划分 成 64 个 方块 ， 以 便于 研究 岛 上 居住 者 的 数量 
分 布 。 

每 个 方块 中 野兔 和 狐狸 的 数量 取决 于 以 下 几 个 因素 : 

。 每 个 方块 上 这 天 开始 时 野兔 和 狐狸 的 数量 。 

. 这 天 野兔 和 狐狸 的 繁殖 速率 (整个 岛 一 样 )。 

。 植 被 生长 速率 。 

。 这 天 老 野 免 和 老 狐 狸 的 死亡 速率 。 

。 狐狸 吃 野兔 的 特性 (狐狸 完全 靠 吃 野 免 生存 ， 植 被 丰茂 处 野兔 很 难 被 狐狸 发 现 )。 
“野兔 吃 植 被 的 特性 (野兔 靠 吃 植被 生存 ， 一 个 方块 中 野兔 太 多 会 导致 挨 狐 和 /或 繁殖 
率 降低 和 /或 易于 成 为 狐狸 的 腹 中 之 物 )。 

“。 野 免 从 一 个 方块 向 部 接 方块 迁移 (日 复 一 日 ) 的 特征 。 

“狐狸 从 一 个 方块 向 其 他 任何 一 个 距离 小 于 “两 跳 ” 的 方块 迁移 的 特征 。 

由 于 这 是 一 个 岛 ， 所 以 有 某 些 边界 条 件 : 靠 水 的 28 个 方块 豪 无 迁移 的 可 能 ， 野 免 
和 狐狸 都 不 能 跳 下 水 或 从 水 中 跳 上 来 。 类 似 地 还 有 一 些 初始 条 件 : 野兔 和 狐狸 的 初始 
数量 ， 在 程序 开始 运行 时 野 免 和 狐狸 在 各 个 块 中 的 数量 分 布 。 

你 的 任务 是 模拟 岛 上 10 年 的 生活 ， 以 1 天 为 时 间 单位 ， 算 出 10 年 后 岛 上 的 每 个 小 方 
块 中 野兔 和 狐狸 的 数量 。 小 方块 中 一 对 野兔 在 繁殖 日 开始 时 生 下 一 窝 小 免 ， 繁 殖 日 以 9 
个 星期 为 周期 。 小 免 的 数量 从 2 只 到 9 只 不 等 ， 取 决 于 食物 (植被 ) 丰 足 程度 和 那天 开 
始 时 方块 中 野 免 的 数量 (“ 野 免 密度” ) 。 它 们 之 间 的 关系 参见 表 6-1。 小 方块 中 一 对 狐 
狸 在 繁殖 日 开始 时 生 下 一 窝 小 狐狸 ， 繁 殖 日 以 6 个 月 为 周期 。 小 狐狸 的 数量 从 0 到 5 只 不 


. 等 ,取决 于 食物 ( 野 免 数 目 ) 丰 足 程度 和 那天 开始 时 方块 中 狐狸 的 数量 ( “狐狸 密度 ”) ， 


如 表 6-2 所 示 。 
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表 6-1 小 野兔 出 生 数 量 (习题 6-20) 







在 一 大 开始 时 野兔 的 数量 
<2 2 至 200 201 至 700 701 至 5000 >5000 









在 一 天 开始 时 
的 植被 






< 0.2 0 2 

>0.2 且 <0.5 0 4 4 3 3 

20.5H<0.8 0 6 5 4 4 
0 8 7 5 








>0.8 









在 一 天 开始 时 野 免 





的 数量 (每 只 狐狸) 

<3.0 0 2 2 1 0 
>3.0 且 <10 0 3 3 2 1 
> 10 有 <40 0 4 3 3 2 
> 40 0 5 3 3 





一 只 狐狸 一 周 中 吃 到 两 只 野兔 就 能 存活 ， 只 要 能 找到 野 免 ， 它 最 多 能 吃 四 只 。 如 
植被 茂密 度 小 于 0.6， 野 免 就 容易 被 狐狸 发 现 ， 这 种 情况 下 ， 如 果 有 足够 的 野 免 供应 的 
话 ， 任 何 一 天 狐狸 吃 到 野兔 的 概率 是 4/7。 如 果 野 免 不 够 或 植被 茂密 度 大 于 (等 于 ) 0.6， 
狐狸 吃 到 野 免 的 概率 是 2/7 一 一 前 提 是 在 那 种 消费 水 平 上 有 足够 的 野 免 。( 如 野兔 数量 不 
够 维持 狐狸 生存 ，10% 的 挨 饿 的 狐狸 会 死去 ， 不 包括 自然 死亡 。) 狐狸 的 生命 期 是 四 年 
左右 ， 每 天 狐狸 自然 死亡 的 数量 用 一 个 随机 数 决定 。 

如 果 没 有 食物 限制 ( 即 植被 足够 多 ， 方 块 中 所 有 野兔 尽 可 放 开 胃口 ) ， 每 只 野兔 每 
天 消耗 掉 方 块 中 植被 的 千 分 之 一 。 野 免 的 正常 寿命 是 18 个 月 左右 。 如 植被 茂密 度 小 于 
0.35， 野 免 猴 死 的 数量 急剧 上 升 ， 参 见 表 6-3。 





表 6-3 ”野兔 生命 期 
植被 茂密 度 ， 野兔 生命 期 
0.1 至 0.15 3 个 月 
0.15 至 0.25 6 个 月 
0.25 至 0.3 12 个 月 
0.35 以 上 18 个 月 


每 天 野兔 自然 死亡 和 饿 死 的 总 数 用 一 个 随机 数 决定 。 亚 热带 岛 有 理想 的 生长 条 件 .， 
没 被 野兔 咕 食 的 植被 很 快 增长 。 植 被 茂密 度 遵从 如 下 生长 /消耗 公式 : 

在 一 天 结束 时 的 植被 = (110% x 这 一 天 开始 时 的 植被 ) ~ (0.001 x 这 一 天 开始 时 的 
野 免 数量 ) 

植被 茂密 度 限 制 在 0.1 和 1.0 之 间 。 每 天 结束 时 ，20% 的 野兔 随机 迁 人 相 邻 方块 。 各 
个 相 邻 方 块 中 迁 和 的 野 免 数 量 用 随机 数 确定 。 类 似 地 ， 每 天 结束 时 ， 狐 狸 随机 迁 往 与 当 
天 开始 时 所 在 方块 相距 0 块 、1 块 或 2 块 的 方块 。 注 意 ， 往 哪个 方块 迁移 的 可 能 性 相同 。 

请 分 析 以 下 三 个 案例 : 
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案例 1: 初始 时 ， 每 个 方块 均匀 地 分 布 有 2 只 狐狸 和 100 只 野兔 ， 植 被 到 处 都 有 是， 茂密 
度 为 1.0。 

案例 2: 总 共有 20 只 狐狸 ， 都 在 一 个 角 上 的 方块 中 ， 其 他 地 方 没有 。 与 狐狸 所 在 方块 同 
一 对 角 线 的 另 一 个 角 上 的 方块 中 有 800 只 野兔， 除 此 之 外 ， 其 他 每 个 方块 都 只 
有 10 只 野 免 。 植 被 茂密 度 处 处 都 为 0.3。 

案例 3: 岛 上 没有 狐狸 ， 但 每 个 方块 中 有 2 只 野兔。 植被 茂密 度 处 处 都 为 0.5。 

设计 一 个 细胞 自动 机 解决 一 个 实际 问题 ， 并 实现 它 。 

(研究 作业 ) 设计 一 套 规则 ， 用 于 建 模 海 滩 上 一 个 沙丘 在 海浪 冲刷 下 的 运动 (侵蚀) 

过 程 (一 个 类 似 的 问题 是 建 模 河岸 在 水 的 作用 下 的 受 侵蚀 过 程 )。 

(研究 作业 ) 设计 对 穿 过 机 杜 的 气流 建 模 的 必要 规则 ， 如 图 6-21 所 示 (二 维 )。 解 空间 

的 维 数 和 对 象 的 维 数 自 定 。 自 己 选取 网 格 点 数 ， 并 编写 程序 解决 该 问题 。 


气流 = | 


的 实际 维 数 


图 6-21 习题 6-24 的 图 





第 7 章 负载 平衡 与 终止 检测 


本 章 我 们 要 介绍 负载 平衡 (load balancing) 的 概念 ， 它 用 于 在 处 理 器 间 合 理 地 分 配 计算 ， 
以 获得 尽 可 能 快 的 执行 速度 。 一 个 相关 的 问题 是 检测 计算 何 时 已 经 结束 ， 即 所 谓 的 终止 检测 
(termination detection ) 。 当 计算 是 分 布 式 时 ， 终 止 检测 将 成 为 一 个 重要 问题 ， 并 且 必 须 考 虑 
负载 平衡 。 在 讲述 多 种 负载 平衡 和 终止 检测 技术 后 ， 将 给 出 一 个 详细 的 应 用 实例 以 加 深 对 这 
些 技术 的 理解 。 


7.1 负载 平衡 


迄今 为 止 ， 我 们 把 一 个 问题 划分 成 固定 数量 、 可 并 行 执行 的 进程 ， 每 个 进程 执行 已 知 数 
量 的 工作 。 另 外 ， 假 定 对 进程 在 可 用 的 处 理 器 间 只 做 简单 地 分 配 ， 而 不 讨论 处 理 器 类 型 和 速 
度 的 影响 。 可 是 ， 由 于 工作 不 是 均衡 地 划分 或 者 一 些 处 理 器 运行 得 比 其 他 处 理 器 快 (或 两 者 
沸 有 )， 会 使 一 些 处 理 器 比 其 他 处 理 器 先 完成 任务 而 变 得 空闲 。 
理想 的 情况 是 ， 让 所 有 的 处 理 器 连续 执行 这 些 任务 ， 这 会 使 执行 。 太 
时 间 最 小 。 通 过 在 处 理 器 间 均 衡 地 分 配 任务 来 实现 这 个 目标 称 为 里 欠 | 
抽 载 平 街 。 在 第 3 章 的 曼 德 勃 罗 特 计算 中 曾 提 到 过 负载 平衡 ,在 六 名 


这 种 计算 中 没有 进程 间 的 通信 。 现 在 我 们 进一步 病 述 处 理 器 间 有 i 
通信 的 负载 平衡 问题 。 在 执行 前 不 知道 工作 量 的 情况 下 使 用 负载 。) 不 宫 关 的 负 拉 下 稀 导 肥 
平衡 技术 特别 有 用 ， 即 使 预先 知道 了 工作 量 ， 它 也 有 助 于 减轻 处 执行 时 间 的 增加 

理 器 间 速度 差异 的 影响 。 p, 


图 7-1 说 明了 负载 平衡 如 何 可 得 到 最 小 执行 时 间 (真正 的 目 对 
标 )。 在 图 7-1a 中 ， 处 理 器 P 运行 时 间 较 长 ， 而 处 理 器 P4 则 提前 昼 玉 
完成 了 任务 ， 但 整个 执行 时 间 将 取决 于 较 长 的 Pl 运行 时 间 。 理 想 。 只 
的 情况 是 将 Pi 的 部 分 工作 分 给 Ps 以 均衡 工作 负载 。 在 图 7-1b 中 ， ee 
在 ( 秒 的 运行 时 间 里 ， 所 有 的 处 理 器 都 在 运行 ， 负 载 平衡 很 完美 。 i 
看 待 这 个 问题 的 另 一 种 方式 ， 就 是 这 个 计算 用 一 个 处 理 器 需要 图 7-1 负载 平 奖 
个 时 钟 周期 ， 若 用 p 个 处 理 器 ， 则 在 没有 额外 开销 的 并 行 实现 时 ， 其 执行 时 间 可 减少 为 4/p 个 
时 钟 周期 。 

可 以 在 任何 进程 执行 之 前 尝试 静态 负载 平衡 或 在 进程 执行 过 程 中 尝试 动态 负载 平衡 。 静 
态 负 载 平 衡 通 常 指 映射 问题 (mapping problem ) [Bokhari，1981] 或 调度 问题 (scheduling 
problem )。 有 关 这 个 问题 有 大 量 文章 ， 多 数 利用 优化 技术 ， 通 常 从 程序 分 段 的 估计 执行 时 间 
和 它们 的 相关 性 人 手 。 下 面 列 出 的 是 一 些 可 用 的 静态 负载 平衡 技术 : 

循环 算法 一 按 进程 顺序 分 配 任务 ， 当 所 有 进程 都 给 了 一 个 任务 后 ， 再 回 到 第 一 个 。 

,随机 算法 一 随机 选择 进程 执行 任务 。 : 

.递归 对 分 一 -将 问题 递归 划分 成 同等 计算 量 的 子 问题 ， 同 时 使 消息 传递 最 少 。 

,模拟 退火 一 -一 种 优化 技术 。 

遗传 算法 一 - 另 一 种 优化 技术 ,将 在 第 13 章 中 讲述 。 


上 
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图 7-1 也 可 看 作 装 箱 (bin packing) 问题 的 一 种 形式 (就 是 将 对 象 放 进 箱 中 来 减少 箱子 的 
数量 ) ， 可 以 用 装 箱 算法 处 理 调度 [Coffman，Garey，and Johnson，1978]。 在 我 们 的 例子 中 ， 
即 是 有 固定 数量 大 小 相同 的 箱子 (进程 )， 目 标 是 最 小 化 箱子 的 大 小 。 

对 于 通过 静态 链 路 互联 网 互联 的 处 理 器 /计算 机 应 把 通信 进程 放 在 具有 直接 通信 路 径 的 处 
理 器 上 运行 ， 以 减少 通信 延迟 。 这 是 该 类 系统 映射 问题 的 基本 部 分 。 对 不 同 的 网 络 ， 也 许 需 
要 不 同 的 映射 解决 方法 。 一 般 来 讲 ， 这 是 个 难处 理 的 计算 问题 ， 即 所 谓 的 NP 完备 问题 。NP 代 
表 “ 不 确定 的 多 项 式 ”， 意 思 是 解决 该 问题 可 能 没有 多 项 式 时 间 算 法 。 因 此 ， 常 常 要 用 启发 式 
方法 为 进程 选择 处 理 器 。 

即使 存在 数学 解 ， 静 态 负载 平衡 有 几 个 与 系统 和 应 用 有 关 的 根本 缺陷 。 首 先 也 是 最 重要 
的 是 ， 如 果 疫 有 实际 执行 程序 的 各 个 分 段 ， 那 是 很 难 准确 估计 程序 的 各 个 部 分 的 执行 时 间 的 。 
因此 ， 不 使 用 实际 执行 时 间 调 度 这 些 分 段 就 注定 是 不 准确 的 。 另 外 ， 一 些 系统 也 许 有 通信 延 
迟 ， 这 种 延迟 在 不 同情 况 下 是 不 一 样 的 ， 所 以 很 难 在 静态 负载 平衡 中 体现 这 种 变化 的 通信 延 
迟 。 有 些 问题 的 求解 步 数 是 不 确定 的 ， 例 如 ， 搜 索 算 法 常常 需 遍 历 一 个 图 来 求解 ， 不 论 是 并 
行 地 还 是 顺序 地 进行 都 不 知道 要 搜索 多 少 路 径 。 由 于 静态 负载 平衡 在 这 些 情 况 中 的 应 用 不 是 
很 好 ， 为 此 我 们 需要 求助 于 动态 负载 平衡 。 

在 动态 负载 平衡 中 ， 通 过 负载 的 划分 依赖 于 将 要 执行 分 段 的 运行 ， 把 上 面 所 有 这 些 因素 
都 考虑 进去 。 这 在 运行 期 间 确 实 会 造成 额外 的 开销 ， 但 比 起 静态 负载 平衡 来 则 要 有 效 得 多 。 
本 章 将 侧重 讨论 动态 负载 平衡 ， 描 述 获 得 动态 负载 平衡 的 不 同方 式 。 我 们 还 将 详细 讨论 一 个 
计算 最 终 如 何 结束 ， 这 在 动态 负载 平衡 中 可 能 是 一 个 重要 问题 ， 称 为 终止 检测 。 

而 计算 则 要 被 划分 成 待 执行 的 工作 (work) 或 任务 (task)， 然 后 由 进程 执行 这 些 任务 。 
通常 要 把 进程 映射 到 处 理 器 。 由 于 我 们 的 目标 是 使 处 理 器 保持 繁忙 ， 因 此 我 们 对 处 理 器 的 活 
动感 兴趣 。 不 过 ， 由 于 我 们 常常 将 1 个 进程 映射 到 1 个 处 理 器 上 ， 因 此 我 们 将 互 换 使 用 进程 和 
处 理 器 这 两 个 术语 。( 映 射 多 个 进程 主要 是 为 了 时 延 隐藏 。) 


7.2 动态 负载 平衡 


动态 负载 平衡 中 ， 任 务 是 在 程序 运行 期 间 分 配 到 处 理 器 的 。 动 态 负载 平衡 可 以 划分 为 下 
述 中 的 一 类 : 

。 集 中 式 
在 集中 式 动 态 负载 平衡 中 ， 任 务 是 从 一 个 中 心 位 置 分 发 的 。 存 在 清晰 的 主 从 结构 ， 其 中 主 进 
程 直接 控制 一 组 从 进程 中 的 每 个 进程 。 相 反 ， 在 分 散 式 动态 负载 平衡 中 ， 任 务 是 在 任意 进程 
间 传 送 的。 一 组 工作 者 进程 对 问题 进行 操作 ， 它 们 之 间 互 相交 互 ， 最 后 向 一 个 单独 进程 报告 。 
一 个 工作 者 进程 可 从 其 他 工作 者 进程 处 接收 任务 ， 也 可 向 其 他 工作 者 进程 发 送 任务 (由 自己 
决定 完成 或 传递 ) 。 


7.2.1 集中 式 动态 负载 平衡 


在 集中 式 动 态 负载 平衡 中 ， 主 进程 持 有 要 执行 的 任务 集 。 任 务 由 主 进 程 发 送 给 从 进程 。 
从 进程 完成 一 个 任务 后 ， 会 向 主 进程 请 求 另 一 个 任务 。 这 种 机 制 是 工作 池 方 法 的 本 质 ， 在 第 3 
章 中 讨论 生成 曼 德 勃 罗 特 图 像 时 介绍 了 工作 池 。 在 那 种 情况 下 ， 工 作 池 里 放 有 按 像素 的 坐标 
所 指明 的 任务 。 因 为 所 有 从 进程 都 是 相同 的 ， 有 时 也 用 术语 复制 工作 者 (replicated worker) 
来 描述 这 种 方法 。( 这 种 思想 可 发 展 成 为 让 特定 的 从 进程 去 执行 某 些 任务 )。 另 一 种 描述 同一 
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方法 的 术语 是 处 理 器 农庄 (processor farm ) 。 | 

工作 池 技 术 可 容易 地 用 于 简单 的 分 治 问题 ， 也 可 用 于 那些 任务 很 不 相同 、 大 小 不 同 的 问 
题 。 一 般 最 好 先 分 配 较 大 或 最 复杂 的 任务 。 如 果 在 计算 中 分 配 较 大 任务 较 晚 ， 完 成 较 小 任务 
的 从 进程 会 用 果 着 ， 以 等 待 较 大 任务 的 完成 。 

当 在 执行 期 间 任务 数 会 发 生变 化 时 ， 也 较 适 合 应 用 工作 池 技 术 。 在 一 些 应 用 中 ， 特 别 是 搜 
索 算 法 中 ， 一 个 任务 的 执行 会 产生 一 些 新 的 任务 ， 尽 管 最 终 任务 数 必 会 减 为 零 以 指示 计算 的 
完成 。 可 用 一 个 队列 存放 当前 等 待 的 任务 ， 如 图 7-2 所 示 。 如 果 所 有 任务 大 小 相同 且 同 等 重要 ， 
则 可 使 用 简单 的 先进 先 出 队列 ; 如 果 某 些 任务 比 其 他 任务 更 重要 (如 期 望 更 快 地 得 到 解 )， 就 
要 首先 把 这 些 任 务 送 到 从 进程 。 其 他 的 一 些 信 息 ， 如 当前 的 最 佳 解 等 ， 可 由 主 进程 加 以 保存 。 


工作 池 






发 送 任务 
请 求 任务 {并且 
可 能 提交 新 任务 ) /A 
从 “工作 者 ”进程 
图 7-2 集中 式 工作 池 
终止 


在 得 到 解 后 停止 计算 称 为 终止 。 集 中 式 动态 负载 平衡 的 一 个 突出 优点 是 ， 主 进程 很 易 识 


别 计算 会 何 时 终止 。 对 一 个 计算 ， 如 果 其 中 的 任务 是 从 任务 队列 获取 的 ， 那 么 当下 面 两 项 都 ”04 


满足 时 计算 就 终止: 

。 任务 队 列 为 空 

“ 每 个 从 进程 为 空闲 态 并 且 已 经 请 求 了 另 一 任务 ， 而 又 没有 任何 新 的 任务 产生 
注意 ， 这 里 必须 确定 没有 新 任务 的 产生 。( 那些 不 产生 新 任务 的 问题 在 执行 过 程 中 ， 如 曼 德 擂 
罗 特 计算 ， 在 任务 队列 为 空 并 且 所 有 从 进程 完成 时 就 可 终止 。) 

在 一 些 应 用 中 ， 一 个 从 进程 通过 一 些 本 地 终止 条 件 就 可 以 检测 出 整个 程序 的 终止 条 件 ， 
如 搜索 算法 中 对 项 的 查找 。 在 这 种 情况 下 ， 从 进程 会 向 主 进程 发 送 一 个 终止 消息 ， 然 后 主 进 
程 关闭 所 有 其 他 从 进程 。 在 另 一 些 应 用 中 ， 每 个 从 进程 必须 到 达 一 个 指定 的 本 地 终止 条 件 ， 
如 本 地 解 的 收敛 ， 像 第 6 章 的 同步 迭代 问题 一 样 。 


7.2.2 分 散 式 动态 负载 平衡 


虽然 集中 式 工 作 字 已 被 广泛 使 用 ， 但 它 的 一 个 严重 缺点 是 主 进程 一 次 只 能 发 送 一 个 任务 ， 
在 初始 任务 发 送 后 ， 它 只 能 一 次 一 个 地 响应 新 的 任务 请 求 。 因 此 ， 当 很 多 从 进程 同时 请 求 时 ， 
就 存在 着 潜在 的 瓶颈 。 如 果 从 进程 很 少 且 任务 又 是 计算 密集 型 的 ， 则 集中 式 工作 池 是 会 令 人 
满意 的 。 但 对 于 较 细 颗 粒度 任务 和 有 很 多 从 进程 的 情况 ， 则 把 工作 字 分 布 在 多 个 地 点 将 会 更 
合适 。 

一 种 方法 是 按 图 7-3 那 样 分 布 工作 池 。 这 里 ， 主 进程 已 将 最 初 的 工作 池 分 成 几 个 部 分 ， 并 
且 将 每 一 部 分 发 送 给 一 组 “迷你 主 进程 ”(Mo 到 M,-! ) 中 的 每 一 个 。 每 个 迷你 主 进程 控制 一 组 
从 进程 。 对 于 优化 问题 ， 迷 你 主 进程 会 找到 本 地 最 优 ， 然 后 将 其 返回 给 主 进程 ， 主 进程 再 选 
出 最 优 解 。 很 显然 可 通过 几 个 层次 的 分 解 来 发 展 这 种 方法 ; 在 叶 结 点 放置 从 进程 ， 用 内 部 结 
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点 分 割 工作 ， 就 可 形成 一 棵 树 ， 这 是 将 一 个 任务 等 分 成 子 任务 的 基本 方法 。 对 于 一 棵 二 又 树 ， 
可 在 树 的 每 一 层 由 进程 把 任务 的 一 半 送 给 一 棵 子 树 ， 而 把 另 一 半 送 给 另 一 棵 子 树 。 另 一 种 分 
布 式 方法 则 是 让 从 进程 实际 持 有 工作 池 的 一 部 分 并 对 这 一 部 分 求解 。 


初始 任务 
宇 进 程 , Pwnage 一 了 T 





图 7-3 分 布 式 工作 池 


1. 全 分 布 式 工作 池 
一 旦 进程 分 配 了 工作 负载 ， 它 又 产生 自己 的 任务 ， 就 存在 进程 间 相互 执行 任务 的 可 能 性 ， 


如 图 7-4 所 示 。 任 务 可 按 如 下 方法 传递 : 

1) 由 接收 器 启动 方法 。 | ( 
2) 由 发 送 器 启动 方法 。 wo ~、 
在 接收 器 启动 方法 中 ， 一 个 进程 向 它 选择 的 别 的 进 


程 请 求 任务 。 典 型 地 ， 当 一 个 进程 有 很 少 或 没有 任务 盾 将 求 /任务 
行 时 ， 会 向 其 他 进程 请 求 任务 。 已 经 表明 该 方法 在 高 系 
统 负 载 时 会 工作 得 很 好 。 在 发 送 器 启动 方法 中 ， 一 个 进 


程 向 它 选择 的 其 他 进程 发 送 任 务 。 在 这 种 方法 中 ， 典 型 
的 是 一 个 负载 很 重 的 进程 会 向 愿意 接收 的 其 他 进程 传递 i 
一 些 它 的 任务 。 已 经 表明 这 种 方法 在 整个 系统 负载 较 轻 时 工作 得 较 好 。 另 一 种 选择 是 将 两 种 
方法 结合 起 来 。 不 幸 的 是 ， 确定 进程 负载 状况 的 代价 昂贵 。 在 系统 负载 非常 重 时 ， 由 于 缺少 
可 用 进程 ， 负 载 平衡 也 可 能 会 很 难 实现 。 

现在 让 我 们 讨论 接收 器 启动 方法 中 的 负载 平衡 ， 不 过 ， 它 也 适用 于 发 送 器 启动 方法 。 有 几 
种 可 行 的 策略 。 可 将 进程 组 织 成 一 个 环 ， 进 程 向 其 最 近 的 邻居 请 求 任务 。 环 形 结构 适合 一 个 用 
环形 互联 网 构成 的 多 处 理 机 系统 。 类 似 地 ， 在 一 个 超 立 方 体 中 ， 进 程 可 向 每 一 维 上 与 其 直接 相 
连 的 一 个 进程 请 求 任务 。 当 然 ， 对 于 任何 策略 ， 都 要 小 心 不 要 让 已 接收 的 相同 任务 不 停 地 传递 。 

2. 进程 选择 

如 果 没 有 特定 互联 网 络 的 限制 (和 优势 )， 则 所 有 进程 都 是 同等 的 候选 者 ， 进 程 可 以 选择 

其 他 任何 进程 。 对 于 分 布 式 操 作 ， 每 个 进程 可 有 其 自己 的 选择 算法 ， 如 图 7-5 所 示 。 当 本 地 实现 

时 ， 如 果 问 题 或 网 络 合适 ， 则 该 算法 可 作用 于 问题 的 所 有 进程 或 不 同 子 集 。 选 择 进 程 的 算法 包 
括 循 环 算 法 (round robin algorithm)。 在 循环 算法 中 ， 进 程 Pi 向 进程 P, 请 求 任务 ， 其 中 x 由 每 次 
请 求 后 都 要 增值 的 计数 器 给 定 ， 使 用 模 p 运 算 (2 个 进程 )。 如 p = 8，x 则 为 0、1、2、3、4、5、 
6、7、0、1、2、3、4、5、6、7、…。 进 程 不 选择 自己 (x = 门 ， 当 x = 上 时， 计数 器 会 再 加 一 。 
在 随机 轮 询 (random polling ) 算法 中 ,进程 P; 从 进程 P: 请 求 任务 ， 其 中 x 是 在 0 到 n~] (不 包括 i) 
间 随 机 选取 的 一 个 数 。 


Wd 
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从 进程 P; 从 进程 局 
请 求 。 。” 请求 





本 地 选 ” 本 地 选 
择 算法 择 算 法 
图 7-5 从 进程 间 请 求 任务 的 分 散 式 选择 算法 


当 进 程 收 到 一 个 任务 请 求 时 ， 它 会 将 自己 还 未 处 理 的 部 分 任务 发 送 给 请 求 进程 。 例 如 ， 假 
定 问 题 是 用 次 度 优先 搜索 法 遍历 一 棵 搜索 树 ， 从 根 开 始 向 下 访问 结 点 ， 此 时 要 保存 一 个 未 访问 
的 结 点 列表 ， 这 些 结 点 与 一 个 进程 要 访问 的 结 点 通过 边 相连 ， 这 各 人 该 列表 选 榜 一 个 笑 当 的 
未 访问 结 点 集 返回 给 请 求 进程 。 可 以 使 用 多 种 策略 来 决定 返回 多 少 结 点 以 及 返回 哪些 结 


7.2.3 使 用 线形 结构 的 负载 平衡 


[Wilson，1995] 描 述 了 一 种 负载 平衡 技术 ， 该 技术 特别 适用 于 线形 结构 (或 流水 线 ) 拓扑 
连接 的 处 理 器 。 不 过 该 技术 可 扩展 到 其 他 互联 结构 。 他 六 术 的 技术 .3transputer 相 关 ， 
transputer 常 互联 成 一 条 线 。 我 们 在 这 里 讨论 该 技术 以 说 明 特定 互联 网 络 的 可 能 性 。 基 本 思 
是 创建 一 个 任务 队列 ， 并 由 各 个 处 理 器 访问 队列 中 的 各 个 单元 ， 如 图 7.6 所 未 生计 得 ( 略 7 6 
中 的 Po) 从 一 端 向 队列 输入 任务 ， 且 任务 沿 队列 向 下 移动 。 当 一 个 “工作 者 ”进程 P (1<i<p) 
从 队列 上 其 输入 端 处 检测 到 一 个 任务 且 该 进程 空闲 时 ， 它 就 会 从 队列 上 取得 这 个 任务 。 在 队 
列 左边 的 那些 任务 继续 下 传 以 填 满 队列 的 空间 。 新 的 任务 从 队列 的 左 端 插入 ， 最 终 所 有 的 进 
程 都 会 有 一 个 任务 ， 此 后 队列 会 被 新 来 的 任务 填充 。 显然 这 种 机 制 可 使 工作 者 进程 保持 繁忙 。 
高 优先 权 或 较 大 的 任务 可 首先 放 入 队列 。 





图 7-6 使 用 流水 线 结构 的 负载 平衡 


在 邻接 的 进程 之 间 可 以 使 用 消息 来 编排 这 种 移动 动作 。 也 许 最 好 的 方法 是 在 每 个 处 理 器 
上 运行 两 个 进程 : 

。 用 于 左右 两 边 的 通信 

* 用 于 当前 任务 ， 

如 图 7-7 所 示 。 甚 至 可 以 构造 3 个 进程 : 

“ 用 于 左边 通信 

“ 用 于 右边 通信 
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“ 用 于 当前 任务 





如 果 缓 神 区 空 ， 
则 产生 请 求 任务 请 求 

请 求 接收 人 

的 任务 如 果 缓冲 区 满 ， 则 发 送 任务 






如 果 空 闲 ， 
请 求 任务 





图 7-7 在 线形 负载 平衡 中 使 用 通信 进程 


这 些 构造 在 transputer 程 序 中 较 典 型 ， 因 为 在 transputer 的 硬件 中 支持 并 发 进程 。 将 这 一 观 
点 应 用 于 那些 允许 每 个 处 理 器 上 运行 多 个 进程 的 MPI 的 实现 是 没有 任何 困难 的 。 然 而 ， 对 于 
那些 不 允许 在 一 个 处 理 器 上 运行 多 个 进程 的 MPI 实 现 ， 会 引入 巨大 的 且 不 可 接受 的 开销 。 此 
时 我 们 就 可 以 依靠 手工 编码 来 实现 通信 和 任务 计算 间 的 分 时 。( 更 吸引 人 的 方法 是 使 用 线程 ， 
如 第 8 章 中 所 描述 的 那样 。) 
我 们 用 手工 编码 来 实现 通信 和 任务 计算 间 的 分 时 : 


主 进 程 (Po) 
for {i = 0; i < num tasks; i++) { 
recv(P1, request_ tag); /* request for task */ 
sendl(&task, P1, task_ tag); /* send tasks into queue */ 
} 
recv(P1, request tag); /* request for task */ 
send (&kempty, P1, task_tag); /* end of tasks */ 
从 进程 P (1< i <p) 
if (buffer == empty) { 
send(Pi_1, reqguest. tag); /* request new task */ 
recv (&buffer, Pi-.1, task_ tag); /* task from left proc */ 
} 
if {(buffer == full) && (!busy)) { /* get next task */ 
task = buffer; /* get task*/ 
buffer = empty; /* Set buffer empty */ 
busy = TRUE; /* set process busy */ 
} 
nrecv(Pir1i, request_ tag, request); /* check message from right */ 
if {request && (buffer == full)) { 
send{(&buffer, Pi41); /* shift task forward */ 


buffer = enpty; 
} 
if (busy) { 
Do some work on task. 
If task finished, set busy to false. 


} 


在 该 代码 中 ， 如 果 有 的 话 ， 可 用 组 合 的 sendrecv(), 而 不 必用 send( )/recv( ) 对 。 
非 阻塞 接收 例 程 


continue on current task */ 


~ 
站 
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在 前 面 的 代码 中 ， 有 必要 用 非 阻塞 nrecv( ) 检 查 从 右边 接收 来 的 请 求 。 我 们 在 伪 码 中 只 
是 简单 地 加 入 参数 request， 如 收 到 了 消息 就 将 其 置 为 TRUE。 在 实际 的 编程 系统 中 ,会 有 
一 些 专门 的 机 制 。 在 MPI 中 , 非 阻塞 接收 MPI_Irecv() 返 回 (在 一 个 参数 里 ) 一 个 请 求 “ 句 柄 ”， 
它 用 于 随后 的 完成 例 程 中 以 等 待 消息 或 证 实在 那 一 点 消息 是 否 已 被 接收 (分 别 用 于 
MPI_Wait() 和 MPI_Test() 处 )。 实 际 上 ， 非 阻塞 接收 MPI_Irecv ( ) 在 发 出 对 消息 的 请 求 
后 便 立即 返回 。 

其 他 结构 

虽然 在 [Wilson，1995] 中 没有 提 及 ， 显 然 将 该 方法 扩展 到 树 是 可 能 的 ， 如 图 7-8 所 示 。 当 
结 点 缓冲 区 变 空 时 ， 任 务 会 从 一 个 结 点 传送 到 它 下面 两 个 结 点 中 的 一 个 。 





图 7-8 用 树 进行 负载 平衡 


7.3 分 布 式 终止 检测 算法 


迄今 为 止 ， 我 们 已 考虑 了 任务 的 分 配 。 现 在 让 我 们 看 看 如 何 终止 这 些 分 布 式 任务 。 虽 然 
已 提出 了 各 种 分 布 式 终止 算法 ， 但 首先 让 我 们 考察 一 下 终止 条 件 。 


7.3.1 终止 条 件 


当 计 算是 分 布 式 时 ， 识 别 计算 已 经 结束 可 能 是 困难 的 ， 除 非 是 那 种 一 个 进程 可 得 到 一 个 
解 的 问题 。 通 常 在 时 间 ; 的 分 布 式 终止 需要 满足 如 下 条 件 [Bertsekas and Tsitsiklis，1989j: 

* 在 时 间 !， 对 于 所 有 进程 集 ， 存 在 有 特定 应 用 的 本 地 终止 条 件 。 

。 在 时 间 t， 进 程 间 没有 消息 在 传送 。 

这 些 终止 条 件 和 集中 式 负载 平衡 系统 中 的 那些 相 比 ， 它 们 之 间 的 细微 差别 是 需要 考虑 传 
送 中 的 消息 。 对 于 分 布 式 终止 系统 ， 第 二 个 条 件 是 必要 的 ， 因 为 传送 中 的 消息 也 许 会 重新 启 
动 一 个 已 终止 的 进程 。 可 以 想像 一 下 一 个 进程 已 到 达 它 的 本 地 终止 条 件 并 准备 终止 ， 而 此 时 
有 另 一 进程 正 向 它 发 送 一 条 消息 。 通 常 第 一 个 条 件 相对 容易 识别 ， 只 要 每 个 进程 在 满足 其 本 
地 终止 条 件 时 向 主 进程 发 送 一 条 消息 便 可 。 不 过 第 二 个 条 件 就 较 难 识别 。 消 息 在 进程 间 传 送 
的 时 间 预 先是 不 知道 的 。 可 以 等 待 足够 长 的 时 间 以 便 传送 中 的 消息 到 达 ， 但 这 种 方法 是 不 受 
欢迎 的 ， 而 且 不 允许 代码 在 不 同 的 体系 结构 上 可 移植 。 


210 
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7.3.2 使 用 确认 消息 实现 终止 


[Bertsekas and Tsitsiklis，1989] 描 述 了 一 种 使 用 请 求 和 确认 消息 的 分 布 式 终止 方法 。 该 方 
法 通用 性 好 ， 数 学 证 明正 确 , 而 且 当 进程 将 要 本 地 终止 时 仍 能 处 理 正在 传送 的 消息 。 
Bertsekas 和 和 Tsitsiklis 给 出 了 详细 的 形式 化 数学 证 明 。 

该 方法 参见 图 7-9。 每 个 进程 处 于 两 种 状态 之 一 : 

1) 不 活动 

2) 活动 


父 进程 


且 从 一 个 进程 处 收 到 任务 ， 它 就 变 成 活动 态 。 发 送 任务 
使 进入 活动 态 的 进程 成 为 其 “ 父 进程 ”。 如 果 进 程 向 一 
个 不 活动 进程 传递 任务 ， 它 就 类 似 地 成 为 该 进程 的 父 进 
程 。 这 样 就 会 构建 一 棵 进程 树 ， 每 个 进程 有 唯一 的 父 进 
程 。 一 个 处 于 活动 态 的 进程 有 可 能 从 其 他 活动 进程 处 接 图 7-9 用 消息 确认 实现 终止 
收 更 多 任务 ， 而 它们 不 是 该 进程 的 父 进程 。 因 此 ， 计 算 
本 身 不 必 是 树 结构 。 在 进程 每 次 向 另 一 进程 发 送 任 务 时 ， 它 都 期 望 对 方 的 确认 消息 。 当 它 每 次 
从 一 个 进程 接收 任务 时 ， 它 立即 发 送 一 个 确认 消息 ， 除 非 它 所 接收 的 任务 来 自 其 父 进程 。 它 只 
在 准备 变 成 非 活动 态 时 向 其 父 进程 发 送 一 个 确认 消息 。 当 以 下 条 件 满足 时 它 将 变 成 不 活动 的 : 

“其 本 地 终止 条 件 已 满足 (所 有 任务 已 完成 )。 

* 它 对 收 到 的 所 有 任务 发 送 了 确认 。 

* 它 收 到 了 它 所 发 出 所 有 的 任务 的 确认 。 

最 后 一 个 条 件 意 味 着 一 个 进程 必须 在 其 父 进程 之 前 变 成 不 活动 的 。 当 第 一 个 进程 空闲 后 ， 
计算 终止 。 

由 于 该 算法 的 通用 性 和 已 被 证 明 的 正确 性 ， 它 也 许 是 最 好 用 的 。 然 而 ， 一 个 特定 应 用 也 
许 会 适宜 于 另 一 个 解 ， 此 外 某 些 互联 结构 可 能 会 暗示 有 别 的 终止 机 制 。 





7.3.3 环形 终止 算法 
为 达到 终止 目的 ， 把 进程 组 织 成 一 环形 结构 ， 如 图 7-10 所 示 。 单 通 环 型 终止 算法 (single- 


pass ring termination ) 如 下 : 
1) 当 Po 已 终止 时 ， 它 产生 一 令 牌 传 给 Pi1。 
2) 当 Pi (1< i<p) 接收 令 牌 且 已 经 终止 ， 它 就 将 令 牌 向 前 传 给 Pi 1; 否则 ， 它 会 等 待 本 
地 终止 条 件 ， 然 后 将 令 牌 前 传 。 已 -将 把 令 牌 传 给 Po。 
3) 当 Po 收 到 令 牌 后 ， 它 就 知道 环 中 所 有 进程 已 经 终止 。 如 有 必要 ， 可 向 所 有 进程 发 送 消 
， 通 知 它们 金 局 终止 。 


当 到 达 本 地 终止 条 件 时 ， 令 
牌 被 传递 给 下 一 个 处 理 器 


/ 
GOTOT 全 


图 7-10 环形 终止 检测 算法 
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除了 第 一 个 进程 ， 每 个 进程 实现 一 个 功能 ， 如 图 7-11 所 示 。 算 法 假定 一 个 进程 到 达 本 地 


终止 条 件 后 不 能 重新 激活 。 这 种 假设 不 适用 于 工作 池 问 题 ， 仿 牌 

在 工作 池 问 题 中 一 个 进程 可 向 一 空闲 进程 传送 一 个 新 任务 。 本 
双 通 环形 终止 算法 [Dijkstra，Feijen and Gasteren ， So 

1983] 能 够 处 理 进程 重新 激活 问题 ， 但 需要 在 环 上 有 两 个 通 () 

路 。 重 新 激活 的 原因 是 进程 Pi 传 给 Pj 一 个 任务 ， 这 里 j < i， 


” 且 是 在 令 牌 已 通过 Pj， 参 见 图 7-12。 如 发 生 这 种 情况 ， 令 牌 
必须 第 二 次 沿 环 巡 回 。 为 区 别 这 些 情况 ， 把 令 牌 分 成 白色 。 ”地 进程 终 上 上 盘 法 

和 黑色 ， 进 程 也 被 标 为 白色 和 黑色 两 种 。 接 收 一 黑色 令 牌 意味 着 全 局 终 让 也许 还 没 发 二 ， 令 “2 
牌 还 必须 沿 环 重新 流动 。 该 算法 为 如 下 ， 也 从 Po 开始 

1) P 终 止 时 变 成 白色 ， 产 上 生 一 白色 令 牌 并 送 给 Pi。 

2) 当 每 个 进程 终止 后 ， 令 牌 沿 环 从 一 进程 传递 到 下 一 个 进程 ， 但 令 牌 的 颜色 可 能 会 发 生 
变化 。 如 果 Pi 向 发送 一 个 任务 ， 且 j < i (Pj 在 环 中 位 于 Pi 之 前 )， 它 就 变 成 一 个 黑色 进 痊 ， 
否则 它 是 白色 进程 。 黑 色 进程 会 把 令 牌 染 成 黑色 ， 并 让 它 继续 前 传 。 白 色 进程 让 令 牌 以 原 有 
颜色 《黑色 或 白色 ) 前 传 。 在 已 传 出 令 牌 后 ， 它 就 变 成 白色 进程 。P, ,把 今 牌 传 给 Po。 

3) 当 Po 收 到 黑色 令 牌 ， 它 就 发 出 一 白色 令 牌 ， 如 收 到 白色 令 牌 ， 则 所 有 进程 已 经 终止， 





图 7-12 向 前 面 进 程 传递 任务 
注意 ,在 两 种 环形 算法 中 ，Po 成 为 爹 局 终止 的 中 心 点 。 还 假定 对 每 个 请 求 将 产生 一 确认 


信和 号。 
树 算法 
图 7-11 描 述 的 本 地 活动 可 用 于 各 种 互联 结构 ， 特 别 是 树 结构 ， 它 表示 到 该 点 的 那些 进程 
已经 结束 。 使 用 这 种 机 制 的 树 的 两 个 分 支 示 于 图 7-13。 当 树 的 每 个 分 支 收 到 令 牌 且 本 地 终止 
条 件 存在 时 ， 就 将 令 牌 向 前 传递 。 当 根 收 到 足 额 令 牌 且 终 止 时 ， 就 发 生 全 局 终止 。 然 后 ， 其 
他 所 有 进程 必须 再 次 得 到 通知 ， 也 许 通 过 树 广播 算法 。 





图 7-13 树 终止 





160 第 一 训 分 基本 荐 太 


7.3.4 固定 能 量 分 布 式 终止 算法 


另 一 种 终止 算法 在 系统 中 利用 称 为 “能 量 ”的 定量 表示 。 该 能 量 类 似 于 令 牌 ， 但 有 一 数 
值 。 系 统 开始 时 ， 所 有 能 量 由 一 个 进程 即 主 进程 持 有 ， 它 把 部 分 能 量 与 任务 传送 给 请 求 任务 
的 进程 ;类 似 地 ， 如 果 这 些 进 程 收 到 任务 请 求 ， 它 会 把 能 量 进一步 划分 传送 给 这 些 进 程 。 如 
果 进 程 空 阅 ， 它 要 在 请 求 新 的 任务 之 前 把 持 有 的 能 量 返 回 。 这 一 能 量 可 直接 返 给 主 进程 或 传 
送 给 给 予 其 原始 任务 的 那个 进程 。 对 于 后 一 种 情况 ， 算 法 将 构造 一 种 类 似 于 树 的 结构 。 一 个 
进程 只 有 在 它 发 出 的 所 有 能 量 均 已 返回 ， 并 已 组 合 到 所 持 有 的 总 能 量 中 后 ， 才 会 交 回 其 能 量 。 
当 所 有 能 量 返回 到 根 ， 而 且 根 变 成 空闲 时 ， 所 有 进程 必定 空闲， 计算 就 能 终止 。 

固定 能 量 法 的 一 个 严重 缺点 是 能 量 划 分 精度 有 限 。 如 使 用 浮 点 运算 ,部 分 能 量 的 累加 之 
和 可 能 会 与 原始 能 量 不 相等 。 另 外 ， 只 能 在 能 量 实际 上 为 零 之 前 划分 能 量 。 如 果 原 始 整数 能 
量 足 够 大 到 应 付 划 分 的 个 数 ， 则 一 般 带 验 证 的 整数 运算 能 克服 第 一 个 问题 。 


7.4 程序 举例 


在 本 节 我 们 要 讨论 如 何 能 把 各 种 负载 平衡 策略 应 用 于 一 个 有 代表 性 的 问题 。 有 几 个 应 用 
领域 ， 包 括 显 式 搜 索 和 优化 领域 ， 其 他 领域 有 图 像 处 理 ， 光 线 追 踪 及 体 泻 业 (volume 
rendering )。 事 实 上 ， 任 何 能 分 治 的 问题 都 是 工作 池 方 法 的 候选 者 。 大 多 数 能 充分 利用 动态 负 
载 平衡 的 问题 ， 其 任务 数 是 可 变 的 和 未 知 的 。 当 然 动态 负载 平衡 对 异 构 计 算 机 网 络 也 是 特别 
有 用 的 。 


7.4.1 最 短路 径 问题 


我 们 要 研究 图 上 两 点 间 最 短路 径 问 题 。 这 是 一 个 有 名 的 问题 ， 以 某 些 形式 出 现在 多 数 顺 
序 程序 设计 课程 中 。 它 可 叙述 如 下 : 

给 定 一 组 互联 结 点 ， 结 点 间 的 链 路 用 “ 权 值 ”标记 ， 求 出 从 一 指定 结 点 到 另 一 指定 结 点 
的 路 径 ， 要 求 该 路 径 的 累计 权 值 最 小 。 
互联 结 点 可 用 图 来 表示 。 按 照 图 的 术语 ， 结 点 称 为 顶点， 链 路 称 为 边 。 如 果 边 隐 含 着 方向 
( 即 边 只 能 沿 一 个 方向 遍历 ) 则 该 图 是 有 向 图 。 要 求解 的 问题 是 搜索 图 中 最 佳 路 径 之 一 。 图 本 
身 可 用 于 求解 很 多 不 同 问题 ， 例 如 : 

1) 地 图 中 两 城镇 或 其 他 点 之 间 的 最 短 距离 ， 其 中 权 值 代表 距离 。 

2) 旅行 的 最 快 路 由 ， 其 中 权 值 代表 时 间 《如 果 有 不 同 的 旅行 方式 ， 最 快 的 路 由 不 一 定 是 
最 短 的 路 由 ， 比 如 ， 飞 行 到 某 些 城镇 )。 

3) 坐 飞 机 最 便宜 的 路 线 ， 权 值 表示 城市 (顶点 ) 间 的 航班 费用 。 

4) 假山 的 最 好 路 线 ， 给 定 等 高 线 的 地 形 图 。 

5) 计算 机 网 络 的 最 好 路 由 ， 使 消息 延迟 最 小 (顶点 表示 计算 机 ， 权 值 代表 两 台 计 算 机 间 
的 延迟 )。 

6) 最 有 效 的 制造 系统 ， 权 值 表示 工作 时 间 。 
下 面 将 用 “ 仆 山 的 最 好 路 线 ” 作 为 实例 ， 如 图 7-14 所 示 ， 对 应 的 图 参见 7-15， 其 中 权 值 表示 
通过 连接 两 个 营地 间 路 径 所 花费 的 代价 。 注意， 本 例 中 的 图 是 有 向 图 ， 权 值 与 沿 一 特定 方向 
通过 路 径 有 关 。 理 论 上 ， 我 们 可 以 沿 两 个 方向 作出 所 有 营地 间 的 路 径 ， 即 全 连通 图 ， 不 过 由 
于 每 个 方向 的 权 值 会 不 一 样 它 仍 是 一 个 有 向 图 。 一 个 方向 的 代价 会 与 相反 方向 的 代价 不 同 
(下 山 而 不 是 上 山 ! )。 在 有 些 问 题 中 ， 两 个 方向 的 权 值 是 一 样 的 ， 比 如 ， 和 寻求 开车 的 最 短路 
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由 时 ， 两 个 方向 的 距离 是 一 样 的 ， 权 值 相 等 ， 因 此 是 一 个 无 向 图 。 





4 可 能 的 中 间 营 地 


图 7-14 有 怜 山 





图 7-15 疏 山 图 
7.4.2 图 的 表示 


我 们 首先 建立 一 种 在 程序 中 表示 图 的 方 
法 。 从 顺序 编程 中 我 们 已 熟悉 ， 在 程序 中 图 
可 以 有 两 种 基本 表示 方法 : 

1) 邻接 和 矩阵 一 一 个 二 维 数组 a， 其 中 
a[i][j 1 存放 与 顶点 i 和 j 之 间 的 边 ( 如 存在 ) 
有 关 的 权 值 。 

2) 邻接 表 一 -对 每 一 个 顶点 ， 有 一 个 通 
过 边 和 与 边 相 关 的 对 应 权 值 直接 连接 到 该 顶 
点 的 顶点 列表 。 

对 于 我 们 的 卜 山 问题 ， 两 种 方法 如 图 7-16 所 。! 维 标 引 数组 权 值 NULL 

示 。 邻 接 表 是 用 链表 实现 的 。 邻 接 表 中 边 的 14f>Leaop 

顺序 是 任意 的 ， 选 定 某 一 方法 应 依赖 于 图 的 ;B+>[cTsT [Ts[ =[EE2 寺 CEI 
特征 和 程序 的 结构 。 对 于 顺序 程序 ， 通 常 邻 。 ! cir->[5T454 








接 敌阵 用 于 稠密 图 ， 即 图 中 每 个 顶点 都 有 很 jpj [55 
多 边 ; 而 邻接 表 主 要 用 于 称 欧 图 ， 即 图 中 每 “! -FEI 
个 顶点 的 边 很 少 。 两 者 的 差别 在 于 对 空间 1 < 

fr 


(存储 ) 需求 的 不 同 ， 邻 接 和 矩阵 的 空间 需求 
为 O (vy? )， 而 邻接 表 的 空间 需求 则 为 O (ve)， 
其 中 每 个 顶点 有 e 条 边 ， 而 总 共有 v 个 顶点 。 


b) 邻接 表 
图 7-16 图 的 表示 
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一 般 每 个 顶点 的 e 是 不 同 的 ， 因 此 ， 邻 接 表 空间 需求 的 上 界 为 O (yema)。 访 问 邻接 表 比 访问 邻 
接 和 矩阵 慢 ， 因 为 需要 顺序 遍历 链表 ， 这 可 能 要 v 步 。 对 并 行程 序 而 言 ， 可 以 并 行 访问 以 加 速 进 
程 。 除 了 空间 和 时 间 特 征 外 ， 对 于 并 行程 序 述 需要 考虑 任务 的 划分 及 对 访问 信息 的 影响 。 下 
面 我 们 假定 采用 邻接 拢 阵 表示 (尽管 该 图 是 稀疏 图 )。 


7.4.3 图 的 搜索 


在 我 们 的 例子 中 ， 因 为 到 达 最 高 点 只 有 几 种 方式 ， 因 此 搜索 最 高 点 也 相当 简单 ; 但 在 更 

杂 的 问题 中 , 搜索 不 像 这 样 易于 管理 ， 因 此 必须 使 用 算法 的 方法 。 单 源 最 短路 径 图 算法 求 出 
从 一 个 源 顶 点 到 一 个 目的 顶点 的 最 小 累计 权 值 。 要 确认 到 达 最 高 点 的 最 好 方式 ， 有 两 个 著名 
的 单 源 最 短路 径 算法 可 做 为 候选 : 

。Moore 的 单 源 最 短路 径 算 法 [Moore,1957] 

。Dijkstra 的 单 源 最 短路 径 算 法 [Dijkstra,1959] 
这 两 种 算法 是 类 似 的 。 选 择 Moore 算 法 是 因为 它 更 易于 并 行 实现 ， 尽 管 它 可 能 要 做 更 多 的 工作 
[Adamson and Tick ，1992]， 该 算法 要 求 权 值 须 是 正 值 。( 有 其 他 算法 对 正 负 权 值 都 能 工作 .。 ) 

1. Moore 算 法 

由 源 顶 点 开始 ， 当 在 考虑 顶 点 上 时, 其 基本 算法 的 实现 如 下 : 找 出 经 过 顶点 i 到顶 点) 的 距离 ， 
并 与 当前 到 顶点 的 最 短 距离 比较 ; 如 果 经 过 顶点 i 的 距离 更 短 ， 则 改变 最 短 距 离 。 用 数学 记号 
表示 即 是 ， 如 果 di 是 从 源 顶 点 到 顶点 的 当前 最 短 距离 ，wi ;是 从 顶点 i 到 顶点 j 边 的 权 值 ， 则 有 

d; = min (d;, di+ wj) 

图 7-17 对 算法 作 了 说 明 。 有 趣 的 是 ， 通 过 简单 地 重复 使 用 上 述 公式 就 可 以 解决 问题 (一 个 迭代 
解法 )， 细 节 请 参见 [Bertsekas and Tsitsiklis，1989]。 顶点 j 

该 公式 用 有 向 搜索 实现 。 需 构造 一 个 先进 先 出 的 
顶点 队列 ， 存 放 要 检查 的 顶点 列表 ， 只 有 在 顶点 队列 
中 的 顶点 才 会 被 考察。 开始 时 只 有 源 顶 点 在 队列 中 ; 
另外 还 需要 一 个 结构 以 存放 从 源 点 到 其 他 每 个 顶点 的 
当前 最 短 距离 。 假 定 有 n 个 顶点 ， 且 顶点 0 是 源 顶点 。 
从 源 顶 点 到 顶点 i 的 当前 最 短 距离 存放 在 数组 4 信 税 ， 
dist[i] (1<i<n) 中 。 开始 时 因为 并 不 知道 这 些 Nooo 
距离 ， 故 数组 元 素 的 初 值 为 无 穷 大 。 假 定 w[i] [j] 存 放 从 顶点 到 顶点 j 的 边 的 权 值 (无 边 则 
权 值 为 无 穷 大 )， 代 码 可 为 如 下 形式 : 

newdist j = dist{[i] + wfil[IJ]; 

if (newdist_j < dist{[j]) dist[j] = newdist_ j; . 
当 找 到 到 顶点 /的 较 短 距 离 后 ， 就 把 顶点 /加 入 到 队列 (如 还 不 在 队列 ) ， 这 会 使 顶点 /被 再 一 次 
检查 ， 这 是 该 算法 的 一 个 重要 特征 ， 在 Dijkstra 算 法 中 则 没有 这 一 特征 。 

2. 图 的 搜索 阶段 

用 不 山 图 作为 例子 ， 按 照 其 步 又 ， 看 看 该 算法 是 如 何 从 源 顶点 进行 的 。 

两 个 关键 数据 结构 的 初 值 为 : 

要 考察 的 顶点 当前 最 小 距离 


4 | 加 站 加 可 四 四 


顶点 4 8B CD EE FF 
vertex_queue dist[] 








多 7 草 负 芒 联 血 与 终止 检测 163 


当 A 是 源 顶点 时 ， 元 素 dist [A] 总 是 为 零 。 如 果 不 把 4 选 作 源 顶 点 ， 则 该 结构 就 提供 了 完 
整 的 通用 性 。 


首先 ， 检查 从 顶点 4 出 发 的 每 条 边 。 在 我 们 的 图 中 ， 将 是 顶点 8。 到 8B 的 权 值 为 10， 它 提供 
了 到 8B 的 第 一 个 距离 (实际 上 唯一 的 距离 )。 两 个 数据 结构 vertex_queue 和 dist[ ] 更 新 如 下 : 
要 考察 的 顶点 当前 最 小 距离 
ol 1 || ol10l= l=|= | | 
< 一 顶点 4 B Cc DE F 
Vertex_ queue dist[] 


一 量 一 个 新 顶点 8 放 入 顶点 队列 ， 环 线 B 的 搜索 任务 就 开始 了 。 现 在 还 有 四 条 边 要 检查 : 
即 到 C、D、E 和 FF。 该 算法 中 ， 不 必 以 特定 的 次 序 检查 这 些 边 。 但 Dijkstra 算 法 要 求 首先 检查 
最 近 的 顶点 ， 从 而 必须 顺序 处 理 ， 而 Moore 算 法 也 许 会 要 求 重新 检查 顶点 。 我 们 以 Fr、E、D 和 
C 的 次 序 来 检查 各 边 。 

经 过 顶点 8 到 各 顶点 的 距离 分 别 为 dist[F]=10 + 51 = 61, dist[E]= 10 + 24 = 34、 
dist[D]= 10+13=23 和 dist[C]= 10+8=18。 由 于 它们 都 是 新 距离 ， 因 此 所 有 顶点 都 要 
加 到 队列 中 (F 除外 )， 如 下 : 

要 考察 的 顶点 当前 最 小 距离 
Cpc 四 四 四 本 四 加 
< 一 一 顶点 4 BC D EF 
vertex queue dist [] 
不 需要 加 入 顶点 是 因为 它 是 终点 、 设 有 出 边 且 不 需 处 理 (如 果 加 入 已 ， 会 发 现役 有 出 边 )。 

从 顶点 E 开 始 ， 它 有 一 权 值 为 17 的 边 到 顶点 F。 通 过 顶点 E 到 顶点 F 的 距离 是 dist[E]+17=34 

+17=51， 它 比 当前 到 顶点 F 的 距离 小 ， 故 要 替换 这 一 距离 ， 导 致 


要 考察 的 顶点 当前 最 小 距离 
jc ofl ll ls 
一 一 顶点 4 B CD E F 
Vertex_dqueue dist [] 
接 下 来 是 顶点 D， 它 有 一 条 边 到 顶点 E， 权 值 为 9?。 经 过 顶点 D 到 顶点 E 的 距离 为 dist[D]+ 
9=23+9=32， 它 比 当前 到 顶点 E 的 距离 小 ， 故 厢 换 该 距离 。 把 顶点 E 加 到 队列 ， 如 下 : 
要 考察 的 顶点 当前 最 小 距离 
ele! | | | | ls|2 [ls | 
拉 一 -一 顶点 4 B CD FE F 
vertex queue dist[] 
接 下 来 是 顶点 C， 它 有 一 条 边 到 顶点 D， 权 值 为 4， 因 此 ， 经 过 顶点 C 到 顶点 D 的 距离 为 
dist[C]+14=18+14=32， 它 比 当 前 到 顶点 D 的 距离 23 大 ， 因 此 该 距离 保持 不 变 。 
接 下 来 是 顶点 E( 又 一 次 )， 它 有 一 条 边 到 FF， 权 值 为 17， 使 经 过 顶点 E 到 顶点 F 的 距离 为 
dist{E]+17=32+17=49， 它 比 到 顶点 F 的 当前 距离 小 ， 故 赫 换 该 距离 ， 如 下 : 


要 考察 的 顶点 当前 最 小 距离 


ols [le 
顶点 4 B C D EE F 


vertex queue dist [] 
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现在 再 没有 项 页 点 要 考察 。 我 们 得 出 从 顶点 4 到 其 他 各 点 的 最 短 距离 ， 包 括 终 点 通常 除 
了 距离 外 ， 还 要 求 出 实际 路 径 ， 那 么 在 记录 距离 时 就 需 把 路 径 存 储 下 来 。 该 例 中 的 路 径 为 4 一 


B-D-E-F., 


Ea 


3. 顺序 代码 

在 该 代码 中 省 略 了 维护 顶点 队列 的 细节 。 由 next_vertex() 返 回 顶 点 队列 中 的 下 一 个 
顶点 ， 如 没有 则 返回 ho_vertex。 假 定 我 们 使 用 邻接 矩阵 ， 名 为 w[ ] [ ] ， 采 用 顺序 访问 以 得 
到 下 一 条 边 。 顺 序 代 码 可 为 如 下 形式 : 


/* while a vertex */ 


while ((i = next_ vertex()) != num vertex) 
for (j = 0; j < n; j++) /* get next edge */ 
if (w[i][j] != infinity) { /* IE an edge */ 


newdist j = dist[i] + w[i] [jl]; 

if (newdist_j < dist{j]) { 
dist{j] = newdist_ j; 
append_ queue(j); 

} 


/* vertex to queue if not there */ 


/* no more vertices to consider */ 


} 

4. 并 行 实现 

下 面 我 们 来 观察 一 下 集中 式 工 作 池 和 分 散 式 工作 池 这 两 种 解决 方案 。 

(1) 集中 式 工 作 池 

所 考虑 的 第 一 个 并 行 实现 将 使 用 一 个 集中 式 工作 池 来 存放 顶点 队列 vertex_queue[ ] 作 
为 任务 。 每 个 从 进程 从 顶点 队列 取得 顶点 ， 并 按照 前 面 图 7-2 所 示 方 式 返回 新 的 顶点 。 对 于 要 
确认 边 和 计算 距离 的 从 进程 ， 它 们 需要 访问 存放 图 权 值 的 结构 (邻接 矩阵 或 邻接 表 ) 和 存放 
当前 最 小 距离 的 数组 aist [ ] 。 如 果 这 些 信息 由 主 进程 所 有 ， 就 要 向 主 进程 发 送 消息 以 访问 这 
些 信息 。 这 会 导致 非常 严重 的 通信 开销 。 由 于 存放 图 权 值 的 结构 是 固定 的 ， 可 将 该 结构 拷贝 
到 每 个 从 进程 中 。 假 定 使 用 的 是 拷贝 的 邻接 矩阵。 现在 ， 再 假设 距离 数组 dist[ ] 为 中 央 存 放 
的 ， 且 与 顶点 一 起 整体 拷贝 ， 也 可 单独 对 距离 进行 请 求 。 代 码 可 为 如 下 形式 : 

主 进程 

while {vertex queue() != empty) { 


recv(Pany, Source = Pi); 


V = get.vertex queue(); ， 
send{(&v, .Pi); /* send next vertex and */ 


send(&dist, &n, Pi); /* Current dist array */ 
recv(&j, &dist[j], Pany, Source = Pi); /* new distance received */ 
append gueue(j, dist[j]):; /* append vertex to queue */ 

/* and update distance array */ 


/* request task from slave */ 


}; 
recv (Pany, Source = P;); 
send(Pi, termination tag); /* 


从 进程 (进程 i) 
Send (Pnaster); 


recv(&v, Phnaster; tag); 
if {tag != termination tag) { 


/* request task from slave */ 
termination message*/ ， 


/* send request for task */ 
/* get vertex number */ 


/* and dist array */ 
/* get next edge */ 
/* if an edge */ 


recv(&dist, én, Pnaster); 
for (j = 0; j < n; j++) 
if (w[v] [jj != infinity) { 
newaist_j = dist[v] + w[v] [jl]; 
if (newdist j < dist[j]) { 
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daist[j] = newdist_j; 
send(&j, &dist[j], Pmaster); /* add vertex to queue */ 
} /* send updated distance */ 


} 
} 


很 明显 ， 顶 点 数 和 距离 数组 可 放 在 一 个 消息 中 发 送 。 还 要 注意 各 个 从 进程 或 许 有 不 完全 一 样 
的 距离 ， 因 为 它们 是 由 不 辣 的 从 进程 连续 更 新 的 。 

主 进程 等 待 任何 来 自任 何 从 进程 的 请 求 ， 但 必须 对 进行 请 求 的 指定 从 进程 加 以 响应 。 在 
我 们 的 伪 码 中 ，source = Pi 用 来 表示 消息 源 。 在 实际 编程 系统 中 ， 可 通过 让 每 个 从 进程 发 送 
其 标识 ( 可 能 作为 唯一 标记 ) 来 确认 源 。 在 MPI 中 ， 能 通过 读 取 MPI_Recv ( ) 例 程 返 回 的 状 
态 字 找到 实际 的 消息 源 。 . 

(2) 分 散 式 工作 池 

有 一 种 分 布 式 工作 池 方 法 能 用 于 我 们 的 求解 问题 。 任 务 队列 ， 在 我 们 的 实例 中 的 
vertex_queue[ ]， 也 可 以 是 分 布 式 的 。 一 种 方便 的 方法 是 让 从 进程 i 只 围绕 顶点 i 搜索， 如 
果 顶 点 ;在 队列 中 存在 ， 就 让 进程 拥有 顶点 i 的 顶点 队列 项 。 换 句 话说 ， 队 列 中 有 一 个 元 素 专 
门 用 来 存放 顶点 i:、 该 项 在 进程 中。 数组 dist[{ ] 也 分 布 在 进程 中 间 ， 以 便 进 程 : 保 存 当前 到 顶 
点 ;的 最 短 距 离 。 为 了 确认 顶点 i 揭 边 ， 进 程 ;还 需 存 储 顶 点 ;的 邻接 矩阵 / 表 。 

根据 我 们 的 安排 ， 算 靶 可 按 如 下 方式 进行 : 由 一 协调 进程 激活 搜索 ， 将 浙 顶 点 装载 到 适 
当 的 进程 。 在 我 们 的 例子 中 ，4 是 第 一 个 要 搜索 的 顶点 。 首 先 激活 指派 给 顶点 4 的 进程 ， 该 进 
程 立即 在 顶点 周围 开始 搜索 ， 找 出 到 相连 顶点 的 距离 ， 然后， 把 该 距离 送 到 相应 的 进程 。 到 
顶点 j 的 距离 将 被 送 到 进程 /， 以 与 它 当 前 存储 的 值 相 比 较 ， 如 果 当 前 存储 的 值 较 大 就 被 替换 。 
在 我 们 的 例子 中 ， 到 顶点 8 的 距离 将 与 负责 顶点 8 的 进程 联系 。 按 这 种 方式 ， 在 搜索 中 将 更 新 
所 有 的 最 短 距离 。 如 果 d[ i] 的 内 容 改变 ， 进 程 ;就 要 被 重新 激活 ， 再 次 搜索 。 图 7-18 示 出 了 消 
息 传 递 的 情况 。 注 意 消息 传递 分 布 在 许多 从 进程 间 ， 而 不 是 集中 在 主 进程 上 。 


主 进程 





图 7-18 分 布 式 图 搜索 
从 进程 的 代码 段 可 为 如 下 形式 : 


kt 
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从 进程 (进程) 

recv (newdist, Pany); 

if (newdist < dist) { 
dist = newdist; 


vertex_ queue = TRUE; /* ada to Gueue */ 
} else vertex queue == FALSE; 
if (vertex queue == TRUE) /* start searching around vertex */ 
for (j = 0; j < n; j++) /* get next edge */ 
if (w[j] != infinity) { 
d= dist + w[j]; 
send(&d, Pj); /* send distance to proc j */ 
} 
上 述 代码 显然 可 简化 为 : 
从 进程 (进程 i) 


recv (newdist, Pany); 
if (newdist < dist) { 


Qist = newdist; /* start searching around vertex */ 
for (j = 1; j < n; j++) /* get next edge */ 
if (w[j] != infinity) { 
d= dist + w[jl; 
send (&d, Pj); /* send distance to proc j */ 


需要 用 一 种 机 制 来 重复 这 些 动作 ， 并 在 所 有 进程 空闲 时 终止 。 该 机 制 必 须 处 理 传输 中 的 
消息 。 最 简单 的 解决 方法 是 利用 同步 消息 传递 ， 其 中 一 个 进程 只 有 在 目的 方 收 到 消息 后 才能 
继续 运行 。 对 该 方法 及 确定 收 到 最 后 一 个 确认 〈 如 7.3 节 中 描述 的 那样 ) 的 唯一 父 进程 的 更 有 
效 的 方法 的 研究 留 作 习题 。 

注意 ， 一 个 进程 只 有 在 其 顶点 放 人 队列 之 后 才 是 活动 的 。 有 可 能 很 多 进程 不 是 活动 的 ， 
从 而 导致 一 种 低 效 的 解决 方案 。 如 果 将 一 个 顶点 分 到 每 个 处 理 器 ， 则 该 方法 对 大 图 也 是 不 实 
用 的 。 在 那 种 情况 下 ， 可 把 一 组 顶点 分 配 到 一 个 处 理 器 上 。 


7.5 小 结 


本 章 介 绍 了 以 下 内 容 : 

“集中 式 和 分 布 式 工作 池 及 负载 平衡 技术 

。 几 个 分 布 式 终止 算法 

。 最短 路径 图 搜索 的 应 用 
推荐 读物 

这 些 年 来 ， 有 关 静 态 和 动态 的 任务 调度 已 有 大 量 的 研究 论文 。 在 [Graham，1972] 中 可 找 
到 静态 负载 平衡 ， 另 一 篇 早期 任务 分 配 论文 是 [Chu et al.，1980] 参 考 了 前 人 的 工作 。 在 [Efe， 
1982]、[Lo，1988]、[Shirazi and Wang ，1990] 中 描述 了 启发 式 方 法 。 在 [Iqbal，Salz，and 
Bokhari，1986] 中 对 静态 和 动态 方法 进行 了 比较 。 静 态 负 载 平衡 的 其 他 细节 和 方法 可 在 [Lewis 
and El-Rewini，1992] 和 [El-Rewini，1996] 中 找到 。 有 关 调 度 的 教科 书 可 参见 [Bharadwaj et al.， 
1996]， 它 提供 了 详细 的 数学 处 理 。 
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分 布 式 系统 中 的 负载 平衡 在 很 多 论文 中 也 有 描述 ， 比 如 fTantawi and Towsley，1985]、 
[Shivaratri, Krueger and Singhal, 19921 和 [El-Rewini, Ali and Lewis，19951。 在 [Shirazi， 
Hurson and Kavi，1995] 中 发 表 了 一 个 论文 集 。[jacob，1996] 特 别 在 工作 站 网 络 中 考虑 了 负载 
平衡 。 在 [Bertsekas and Tsitsiklis，1989] 中 ， 依 据 数 学 支持 ， 利 用 接收 最 后 确认 的 一 个 父 进程 
的 概念 ， 全 面 描述 了 强 有 力 的 动态 负载 平衡 技术 。 该 方法 也 用 在 [Lester，1993] 的 并 行程 序 中 。 
把 负载 平衡 看 作物 理 系 统 最 小 能 量 优化 的 概念 在 [Fox et al.，1988] 中 作 了 描述 。 不 少 教科 书 如 
[Barbosa，1996] 对 终止 检 而 进行 了 论述 。 

在 fMateti and Deo，1982]、[Paige，19851 和 [Adamson and Tick，1992] 中 考虑 了 最 短路 径 
问题 的 并 行 算法 ; 而 [Lester，1993] 则 考虑 了 最 短路 径 问 题 的 并 行程 序 设计 问题 。 
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习题 

科学 /数值 习题 

7-1 把 进程 分 配 到 处 理 器 的 一 个 方法 是 利用 随机 数 生成 器 进行 随机 分 配 。 试 通过 该 技术 用 于 
将 一 串 数 进 行 累加 的 并 行程 序 中 来 探讨 该 技术 。 

7-2 对 任何 独立 算术 任务 集 ， 利 用 7.2.3 节 中 所 述 的 流水 线 结构 编写 一 个 并 行程 序 以 实现 负载 
平衡 技术 。 

7-3 旅行 商 问 题 是 一 个 经 典 的 计算 机 科学 问题 (尽管 它 也 可 看 作 是 一 个 实际 生活 问题 )。 从 一 
个 城市 出 发 ， 目 标 是 沿 某 一 路 由 访问 x 个 城市 ， 且 每 个 城市 只 访问 一 次 ， 要 使 旅行 的 距离 
为 最 小 。n 个 城市 可 以 认为 有 不 同 的 连接 ， 用 一 加 权 图 描述 连接 。 从 含有 25 个 主要 城市 的 
地 图 上 获得 实际 数据 ， 然 后 编写 一 个 并 行程 序 解 决 该 旅行 商 问 题 。 

7-4 利用 7.2.3 节 中 所 述 的 线形 结构 负载 平衡 实现 Moore 算 法 。 


7-5 


7-6 


如 本 书 中 指出 的 那样 ，7.4 节 所 述 的 分 散 式 工作 池 方 法 在 搜索 图 时 效率 不 高 ， 因 为 只 有 
在 其 顶点 放 入 队列 后 进程 才 是 活动 的 。 开 发 一 个 更 加 有 效 的 工作 池 方 法 ， 使 进程 更 加 
活跃 。 
分 别 用 Moore 算 法 和 Dijkstra 算 法 编写 搜索 图 的 负载 平衡 程序 ， 比 较 算法 的 性 能 并 给 出 
结论 。 
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现实 生活 习题 


7-7 


7-8 


7:9 


7-10 一 栋 建 筑 有 许多 互联 的 房间 ,其 中 一 间 有 一 盆 金 子 ， 


Yl1 


单 源 最 短路 径 算法 能 用 于 求 出 多 计算 机 互联 网 络 (如 网 格 网 络 或 超 立方 体 网 络 或 人 们 想 
设计 的 任何 互联 网 络 ) 中 消息 的 最 短路 由 。 编 写 一 个 并 行程 序 ， 它 能 求 出 通过 任意 互联 
网 络 的 最 短路 由 和 通过 没有 完全 交换 的 你 的 计算 机 机 群 中 特定 一 个 的 最 短路 由 。 

QoS (quality-of-service， 服 务 质量 ) 用 来 描述 在 一 定 约束 条 件 下 一 个 通信 网 络 (最 著名 
的 要 数 因特网 ) 提供 数据 传输 的 好 坏 程 度 。QoS 有 若干 个 可 由 用 户 说 明 的 参数 (初始 响 
应 时 间 、 最 大 数据 传输 延迟 等 等 )， 并 可 在 每 条 弧 
上 用 不 同 的 权 值 建 模 。 编 写 一 个 搜索 图 的 并 行程 
序 ， 该 图 中 每 条 弧 有 两 个 权 值 ， 要 求 找到 一 条 路 
径 使 两 个 权 值 的 累加 权 值 最 小 化 。 可 能 得 不 到 两 
个 权 值 的 累加 权 值 的 绝对 最 小 值 ， 为 此 需要 对 每 
一 个 累加 权 值 提供 一 个 可 接受 的 最 大 值 。 

你 被 委托 开发 一 个 挑战 性 迷宫 ， 它 要 建 在 一 个 富 
丽 堂皇 的 家 庭 中 。 该 迷宫 在 栅 格 上 的 布局 参见 图 
7-19。 开 发 一 个 并 行程 序 ， 求 出 篇 钨 的 位 置 ， 以 
便当 使 用 图 7-19 所 示 的 迷宫 算法 时 在 迷宫 中 停留 
的 时 间 最 长 。 迷 富 算法 是 保持 路 径 的 左边 有 篇 秃 
或 墙 ， 这 样 就 可 保证 最 终 找到 出 口 [Berman and 
Paul, 1997]。 





如 图 7-20。 试 画 一 张 图 描述 房间 的 格局 ， 其 中 每 个 
顶点 是 一 个 房间 ， 连 接 房间 的 门 表示 为 房间 之 间 的 
边 ， 如 图 7-21 所 示 。 编 写 一 个 程序 求 出 从 门 外 到 放 
置 金子 房间 的 路 径 。 注 意 ， 边 是 双向 的 ， 图 中 也 许 
会 有 环 路 。 
历史 上 ， 银 行使 用 过 两 个 竞争 算法 中 的 一 个 或 另 
一 个 来 处 理 出 纳 处 的 顾客 流量 : 多 队列 和 单 队列 。 在 多 队列 方法 本 
中 ， 每 个 出 纳 有 其 自己 的 队列 ， 就 像 超市 中 的 那样 。 在 这 种 模型 
的 标准 形式 中 ， 顾 客 进入 银行 ， 选 择 一 个 队列 排队 ， 一 直 呆 在 队 站 
列 直到 出 纳 员 为 他 服务 。 一 种 流行 的 变通 方法 允许 “ 跳 队 ”， 即 
队列 中 的 每 位 顾客 在 不 断 地 评估 如 果 他 站 到 另 一 队 是 否 会 使 得 他 
得 到 更 快 服务 的 机 会 。 而 在 单 队列 方法 中 ， 只 有 一 个 队列 。 

队列 头 部 的 顾客 首先 被 出 纳 选择 完成 业务 。 你 的 任务 是 使 房间 人 4 
用 一 个 并 行程 序 模拟 标准 的 多 队列 和 单 队列 方法 ， 准 备 一 页 总 图 7-21 问题 7.10 的 表示 图 
结 (管理 报告 )， 简 述 在 如 下 的 假设 条 件 下 所 发 觉 的 每 种 方 法 的 优点 和 缺点 。 除 了 顾客 平 
均等 待 时 间 和 最 大 等 待 时 间 这 些 条 目 外 ， 收 集 你 认为 与 报告 中 结论 相关 的 其 他 统计 数字 ， 

假设 : : 

1) 有 5 位 出 纳 员 。 

2) 所 有 的 队列 长 度 没 有 限制 ， 如 有 必要 ， 顾 客 可 沿 占 位 点 暗 妖 而 行 。 不 过 ， 队 列 
在 每 天 上 班 的 时 候 是 空 的 。 下 班 后 不 允许 顾客 再 到 队 中 排队 ， 但 是 已 经 在 队 中 的 顾客 








| 


图 7-20 习题 7-10 的 房间 平面 图 
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允许 完成 他 们 的 业务 。 

3) 顾客 随机 到 达 银行 。 由 于 银行 位 于 一 所 一 流 大 学 附近 ， 顾 客 往往 集中 在 下 课 的 
时 候 ， 这 时 的 前 后 10 分 钟 内 每 分 钟 有 10 个 新 顾客 到 达 (平均 ) ; 而 在 所 有 其 他 时 间 每 
分 钟 有 2 个 新 顾客 到 达 (平均 )。 实 际 到 达 是 随机 的 ， 在 该 段 时 间 上 ， 均 匀 分 布 在 每 分 
钟 到 达 1 至 19 的 范围 内 ， 其 他 时 间 则 分 布 在 每 分 钟 到 达 0 至 4 的 范围 内 。 

4) 每 项 业务 的 完成 将 花费 一 个 随机 时 间 。 平 均 起 来 ， 业 务 处 理 需要 5 分 钟 ， 但 是 
在 1 到 9 分 钟 的 范围 内 均匀 分 布 。 此 外 认为 每 个 顾客 只 进行 一 项 业务 。 

5) 在 上 午 9 点 到 下 午 6 点 间 (银行 的 上 下 班 时 间 ) 运行 该 模拟 程序 100 天 ， 得 出 数 

据 ， 根 据 该 数据 ， 为 你 的 总 结 报告 得 出 结论 。 
你 是 一 个 大 公司 的 董事 长 ， 该 公司 雇佣 将 近 1 百 万 人 。 公 司 的 人 事 部 门 巧妙 地 用 树 形 结 
构 把 所 有 雇员 组 织 起 来 ， 每 个 雇员 向 一 个 管理 人 员 汇报 ， 每 个 管理 人 员 最 多 有 8 个 或 最 
少 有 2 个 雇员 向 其 汇报 。 假 定向 一 个 管理 人 员 汇 报 的 雇员 数 为 5 人 (这 也 许 是 不 恰当 的 )。 
因此 树 的 平均 深度 大 致 是 9。( 略 少 于 1000000 个 最 低层 的 雇员 向 大 约 200000 名 第 一 层 管 
理 人 员 汇 报 ， 他 们 又 向 大 约 40000 名 第 二 层 管理 人 员 汇报 ， 后 者 又 向 大 约 8000 名 第 三 层 
管理 人 员 汇报 ， 以 此 类 推 .) 

你 刚 从 美国 检察 官 那里 听 说 你 的 一 个 雇员 受到 指控 ， 这 可 能 会 也 可 能 不 会 影响 你 
的 公司 。 你 不 知道 该 雇员 的 名 字 。 你 的 任务 是 根据 官方 的 人 事 组 织 图 ， 技 出 这 个 雇员 。 
从 你 直接 管理 的 雇员 开始 ， 采 用 广度 优先 搜索 ， 直 到 你 找到 受 指控 的 雇员 。 注 意 : 你 
可 假设 任何 不 受 指控 的 雇员 将 回答 “不 是 我 ! “， 而 受到 指控 的 雇员 将 回答 “是 的 ， 联 
邦 政府 抓 了 我 ! ” 

有 张 表 定义 了 一 个 主要 城市 某 区 域 的 一 组 街道 ， 其 中 许多 街道 是 单行 道 ， 另 外 ， 有 几 
条 隧道 和 桥 允 许 驾驶 员 越 过 街道 。 所 有 街道 都 编 了 号 ， 偶 数 用 于 东西 向 街道 ， 而 奇数 
用 于 南北 向 街道 。 表 的 每 行 有 如 下 形式 : 

.描述 的 街道 号 码 。 

. 越过 街道 。 

* 越过 街道 。 

.方式 ( 单 向 或 双向 )。 

作为 例子 ， 其 中 一 行 也 许 像 13、4、6、1， 表 示 它 描述 街区 的 13 号 街道 ， 它 横 跨 4 
号 和 6 号 街道 ， 是 从 4 号 到 6 号 的 单行 街道 。( 如 该 行 是 13、6、4、1， 则 该 街道 是 从 6 号 
到 4 号 的 单行 街道 )。 另 一 行 或 许 是 13、6、22、2， 它 表示 13 号 街道 是 双向 街道 ， 街 区 
中 的 一 个 隧道 或 桥 连 接 6 号 和 22 号 街道 (在 6 号 和 22 号 之 间 的 越过 街道 上 没有 出 入口 )。 
完成 下 面 的 一 个 或 多 个 问题 : 

1) 求 出 城中 出 租车 能 够 从 一 个 十 字 路 口 行驶 到 另 一 十 字 路 口 的 路 径 数 ， 任 何 十 字 
路 口 只 能 经 过 一 次 。 

2) 求 出 出 租车 能 够 从 一 个 十 字 路 口 行驶 到 另 一 十 字 路 口 的 最 短路 径 (经 过 最 少 的 
街区 )， 任 何 十 字 路 口 只 能 经 过 一 次 。 注 意 .与 桥 或 隧道 相连 的 唯一 十 字 路 口 是 那 些 
桥 或 隧道 两 端的 十 字 路 口 。 . 

3) 求 出 出 租车 能 够 从 一 个 十 字 路 口 行驶 到 另 一 十 字 路 口 的 最 长 路 径 (经 过 最 多 的 
街区 )， 任 何 十 字 路 口 只 能 经 过 一 次 。 注意， 与 桥 或 隧道 相连 的 唯一 十 字 路 口 是 那 些 在 
桥 或 隧道 两 端的 十 字 路 口 。 
生物 系 一 位 有 才气 但 却 色 宦 的 研究 员 ， 她 在 Petri 碟 中 人 工 培育 了 一 种 非常 可 怕 的 细菌 
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样品 。 培 养 液 是 不 透明 的 白色 液体 ， 而 细菌 在 可 见 光 下 哇 粉 红色 。 由 于 她 不 能 辨别 黄 
色 、 检 色 和 红色 ， 这 给 她 每 天 评价 细菌 生长 的 工作 带 来 了 很 大 的 障碍 。 
她 装配 了 将 数据 直接 输入 计算 机 的 数字 相机 ， 雇 佣 你 编写 一 个 扫描 程序 来 计算 被 
细菌 覆盖 的 Petri 碟 表面 的 百分比 。 另 外 ， 你 的 程序 要 用 兰 色 /绿色 显示 Petri 碟 的 表面 。 
在 进行 初步 的 实验 后 ， 你 已 确定 以 《x，y) 坐标 为 中 心 的 一 块 Petri 碟 区 域 ， 其 从 
白 到 粉红 范围 的 平均 色调 依赖 于 (x，y) 坐标 和 实验 已 进行 的 时 间 长 短 !。 由 于 不 完全 
清楚 的 原因 ， 准 确 的 关系 似乎 为 : 
f X 十》 
100 AT 


其 中 ， 一 个 区 域 的 色调 在 Z<0.95 时 为 白色 ， 在 其 他 情况 下 则 为 粉红 色 。 你 的 程序 要 计 
算 和 显示 在 特定 的 实验 时 刻 ! 时 Petri 碟 中 的 细菌 分 布 。 实 现 该 程序 以 致 于 能 对 任何 特定 
点 进行 放大 。 注 意 : 尽管 图 形 不 会 与 锯齿 形 类 似 ， 但 它 在 计算 上 应 与 随时 间 变 化 的 不 
规则 碎片 形状 类 似 。 
最 近 ， 电 视 、 报 纸 和 电影 都 是 有 关外 星人 的 故事 ， 对 Tom 好 像 也 是 这 样 。 因 此 ， 当 一 
个 向 他 所 在 的 公寓 的 居民 提出 一 个 多 维 递归 问题 的 、 模 样 怪异 的 陌生 人 走 近 他 有 时 ， 汤 
姆 欣然 地 接受 了 该 问题 。 虽 然 他 模糊 地 知道 ， 如 果 他 不 能 解决 这 个 问题 ， 他 的 家 人 也 
许 再 也 见 不 到 他 ， 但 他 对 自己 的 数学 才能 十 分 自信 而 并 没有 丝毫 的 操心 。 
疡 姆 唯一 的 担心 是 外 星人 在 处 理 维 数 大 于 3 时 似乎 比 他 更 轻松 ， 但 汤姆 自信 自己 的 
能 力 ， 立 刻 对 它 研究 起 来 。 
给 定 一 个 半径 为 r 的 N 维 球体 ， 以 N 维 坐标 系 的 原点 为 中 心 。 计 算 球体 中 整数 华 标 点 
的 个 数 。 下 面 是 外 星人 为 检查 他 的 工作 所 提供 的 例子 : 
(a) 半径 为 1.5 的 3 维 球体 中 有 19 个 整数 坐标 点 : 
当 第 一 个 坐标 为 -1 时 球 中 有 5 个 点 : 
(~1, 0, 0), (~1, 0, 1), (~1, 0, -1), (~1, -1, 0), (~1, 1, 0), 
当 第 一 个 坐标 为 1 时 球 中 还 有 5 个 点 : 
(1, 0, 0), (1, 0, 1), (1, 0, -1), (1, -1, 0), (1, 1, 0), 
当 第 一 个 坐标 为 0 时 球 中 有 9 个 点 : 
(0, 0, 0), (0, 1, 0), (0, 1, 1), (0, 1, -1), (0, -1, 0), (0, -1, 1), 
(0, -1, -1), (0, 0, -1) 和 (0, 0，1)。 
(b) 半径 为 2.05 的 2 维 球体 中 有 13 个 整数 坐标 点 : 
(0, 0), -1, 0), (-2, 0), (1, 0), Q, 0), C1, -D), (1, 1), (1, -)), 
(1, 1), (0, -2), (0, -1), (0， 1), (0, 2) 
(c) 半径 为 25.5 的 一 维 球体 中 有 51 个 整数 坐标 点 : 
(+25, +24, +23, ..., +1, 0)。 
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第 8 章 共享 存储 器 程序 设计 


在 本 章 中 ， 我 们 将 概述 在 共享 存储 器 中 进行 编程 的 一 些 方法 包括 进程 、 线 程 、 并 行程 
序 设 计 语 言 以 及 具有 编译 器 命令 和 库 例 程 的 顺序 语言 的 使 用 。 我 们 将 从 标准 的 UNIX 进 程 开 始 。 
UNIX 进 程 方 法 引入 了 “fork-join”(“ 分 又 -接合 ”) 模型 ， 在 稍 后 讨论 的 OpenMP 中 使 用 了 这 
种 模型 。 然 后 我 们 将 较 详 细 地 描述 已 广泛 应 用 于 众多 多 处 理 机 和 单 处 理 器 平台 上 的 IEEE 线 程 
标准 Pthread。 对 于 并 行程 序 设计 语言 方法 ， 我 们 将 局 限于 讨论 一 些 典 型 特征 和 通用 技术 ， 而 
不 对 某 个 特定 的 并 行程 序 设计 语言 进行 描述 。 作 为 使 用 编译 器 命令 (以 及 有 关 的 库 例 程 ) 的 
例子 ， 我 们 将 叙述 在 共享 存储 器 多 处 理 机 中 已 广泛 接受 的 并 行程 序 设 计 的 工业 标准 OpenMP。 
此 外 ,我们 将 描述 不 论 使 用 何 种 编程 工具 的 并 行程 序 设 计 中 的 性 能 问题 ， 以 及 涉及 包括 顺序 
一 致 性 在 内 的 共享 数据 和 同步 问题 。 最 后 我 们 提供 某 些 并 行程 序 设计 的 例子 。 在 机 群 上 进行 
共享 存储 器 编程 使 用 了 许多 相同 的 概念 ， 这 将 在 第 9 章 中 加 以 讨论 。 


8.1 共享 存储 器 多 处 理 机 


在 1.3 节 中 ， 我 们 讲述 了 多 处 理 机 系统 的 两 种 基本 类 型 一 一 共享 存储 器 多 处 理 机 和 消息 传 
递 多 计算 机 。 到 目前 为 止 ， 我 们 对 消息 传递 的 多 计算 机 即 计算 机 机 群 进行 了 较 多 的 讨论 。 现 
在 我 们 将 把 注意 力 转移 到 共享 存储 器 系统 的 编程 上 来 。 共享 存储 器 系统 通常 是 为 特定 目的 而 
设计 和 生产 的 系统 ， 但 可 能 非常 经 济 有 效 ， 特 别 是 如 双 或 四 奔腾 系统 那样 的 小 型 共享 存储 器 

在 一 个 共享 存储 器 系统 中 ， 任 一 个 处 理 器 都 可 以 访问 全 部 的 存储 器 单元 。 所 谓 单 - 编 址 空 
间 (single address space ) ， 就 是 每 一 个 存储 单元 都 
由 一 个 单 地 址 范围 内 的 某 个 特定 地 址 所 指定 。 对 于 
少量 处 理 器 的 系统 ， 一 个 通用 的 体系 结构 就 是 单 总 
线 的 体系 结构 。 其 中 ， 所 有 的 处 理 器 和 存储 模块 都 
连接 在 同一 总 线 上 ， 如 图 8-1 所 示 。 这 种 体系 结构 处 理 器 存储 器 模块 
只 适用 于 最 多 大 约 8 个 处 理 器 的 系统 ， 因 为 总 线 在 ”图 8-1 使 用 单 总 线 相连 的 共享 存储 器 多 处 理 机 
某 一 特定 时 刻 只 能 被 一 个 处 理 器 使 用 ， 在 总 线 上 增 
加 处 理 器 意味 着 总 线 竞争 的 增加 ， 从 而 很 快 使 总 线 存储 器 模块 
变 得 饱和 。 虽 然 cache (高 速 缓冲 存储 器 ) 的 使 用 
可 大 大 减少 对 主 存储 器 的 访问 需求 ， 但 如 同 在 单 处 
理 器 系统 中 一 样 ， 每 个 处 理 器 通常 使 用 多 级 cache， 
可 是 单 总 线 仍 只 有 有 限 的 带宽 。 | 

对 于 有 具有 较 多 处 理 器 的 系统 ， 为 获得 足够 带宽 
可 以 使 用 包括 如 图 8-2 所 示 的 全 交叉 开关 那样 的 多 
重 互联 。 价 格 昂贵 的 交叉 开关 可 提供 处 理 器 和 单个 
存储 器 模块 间 的 全 互联 。 也 可 使 用 包括 多 级 互联 网 
(参见 第 1 章 ) 以 及 交叉 开关 和 总 线 组 合 在 内 的 其 他 
互联 结构 。 理 想 地 ， 共 享 存储 器 系统 应 具有 均匀 存 ”图 8-2 使 用 纵横 交叉 开关 的 共享 存储 器 多 处 理 机 
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储 器 存 取 (uniform memory access，UMA ) ， 即 从 任何 处 理 器 对 任何 存储 单元 的 访问 都 具有 相 
同 的 高 速 访问 时 间 。 可 以 构建 一 个 也 许 有 100 个 以 上 处 理 器 的 UMA 系 统 ( 例 如 ，SUN 公 司 的 
Fire 15K 服 务 器 可 具有 多 至 106 个 处 理 器 )。 为 降低 成 本 和 增加 可 扩展 性 的 另 一 种 方式 是 使 互联 
网 。 互 联网 的 使 用 会 使 某 些 存储 器 模块 在 物理 上 更 靠近 某 些 处 理 器 ， 从 而 使 对 主 存储 器 单元 
的 访问 时 间 随 离开 它 的 距离 远近 而 不 同 ， 即 非 均 匀 存 取 (NUMA ) 系统 。 不 论 是 哪 一 种 情况 ， 
在 所 有 系统 中 高 速 缓 存 通常 都 会 存在 ， 以 存放 最 近 访 问 过 的 主 存储 器 单元 的 内 容 。 在 本 章 中 ， 
我 们 将 对 共享 存储 器 多 处 理 机 系统 中 编程 方法 的 典型 特征 加 以 描述 。 在 8.6.1 节 中 将 讨论 在 共 
享 存储 器 多 处 理 机 系统 中 编程 时 应 知晓 的 一 些 非 常 重要 的 高 速 缓存 的 有 关 特 征 。 

存在 几 种 对 共享 存储 器 多 处 理 机 系统 编程 的 方法 ， 如 下 : 

。 使 用 一 种 全 新 的 用 于 并 行 编程 的 程序 设计 语言 

。 修 改 现 有 的 顺序 程序 设计 语言 的 语法 以 构成 新 的 并 行程 序 设 计 语言 

。 使 用 附 有 说 明 并 行 性 编译 器 命令 的 现 有 上 顺序 程序 设计 语言 

。 在 现 有 顺序 程序 设计 语言 中 使 用 库 例 程 

。 使 用 重量 级 进程 - 

。 使 用 线程 
人 们 也 可 使 用 规范 的 顺序 程序 设计 语言 ， 然 后 使 用 并 行 编译 器 将 顺序 程序 转换 成 并 行 执行 代 
码 。 在 这 里 由 编译 器 决定 娜 些 语 名 可 以 同时 执行 ， 它 还 可 重新 调整 语句 的 次 序 以 实现 并 发 操 
作 ， 但 必须 保持 程序 员 的 最 初 意图 。 在 20 世 纪 70 年 代 曾 对 该 方法 进行 了 广泛 研究 。 但 使 用 全 
新 程序 设计 语言 只 获得 了 很 有 限 的 赞同 ， 因 为 它 要 求人 们 从 零 开 始 来 学 习 一 种 新 的 语言 。 在 
某 种 程度 上 被 使 用 的 一 个 例外 语言 是 由 美国 国防 部 提倡 的 Ada 语 言 。 

对 现 有 的 顺序 语言 加 以 修改 的 方法 有 更 大 的 吸引 力 ， 因 为 此 时 人 们 只 需 学 习 这 些 修 改 。 
最 有 号 召 力 的 修改 方法 是 使 用 编译 器 命令 和 库 例 程 而 不 是 修改 语法 。 一 个 已 被 接受 的 修改 方 
法 标准 是 OpenMP， 但 它 仍 需 一 个 专门 的 编译 器 。 

有 趣 的 是 ，C++ 的 发 明 者 Stroustrup 曾 在 [Wilson and Lu，1996] 的 序言 中 写 到 ， 他 在 设计 
最 初 的 C++ 的 规范 的 时 候 并 没有 将 并 发 的 特性 放 入 其 中 ， 虽 然 他 可 以 这 么 做 。 他 的 结论 是 
“每 种 并 发 模型 都 只 能 服务 于 其 中 一 小 部 分 的 用 户 ”。 他 还 有 另 一 个 结论 ， 即 “ 库 方法 存在 弱 
点 是 因为 库 方法 能 提供 比 基 于 语言 扩展 方法 更 高 的 可 移植 性 ”。 

在 本 章 中 我 们 将 从 传统 的 进程 开始 ， 然 后 介绍 使 用 线程 Pthreads 标 准 的 线程 。Pthread 目 前 
已 在 多 种 平台 上 实现 〈 单 处 理 器 的 工作 站 系统 和 多 处 理 机 系统 )。Java 也 是 基于 线程 的 ， 而 且 
能 够 提供 一 些 比 这 里 所 描述 的 更 高 级 的 特征 。 如 果 目 的 多 处 理 机 系统 上 已 经 有 了 Java 实 现 的 
话 ， 那 么 使 用 Java 来 进行 基于 线程 的 并 行程 序 设计 是 最 好 的 选择 。 


8.2 说 明 并 行 性 的 构造 
8.2.1 创建 并 发 进程 


也 许 描述 并 发 进程 的 结构 的 最 早 的 例子 是 由 [Conway ，1963] 所 给 出 的 FORK-JOIN 语 句 组 


(其 中 Conway 引 用 了 更 早 的 工作 ， 可 能 这 个 想法 在 1960 年 之 前 就 出 现 了 )。FORK-JOIN 结 构 
曾 被 应 用 于 FORTRAN 语 言 和 UNIX 操 作 系 统 的 扩展 。 在 最 初 的 FORK-JOIN 结 构 中 ， 一 个 
FORK 语 名 产生 一 个 新 的 并 发 进程 的 路 径 ， 并 且 并 发 进程 在 其 结尾 使 用 JOIN 语句 。 当 原 进 程 
和 新 产生 的 进程 都 到 达 JOIN 语 句 后 ,代码 继续 以 顺序 的 方式 执行 。 如 果 需 要 更 多 的 并 发 进程 ， 
则 需要 执行 更 多 的 FORK 语 句 。 图 8-3 中 显示 了 多 次 典 套 的 FORK-JOIN 结 构 。 每 个 产生 的 进程 
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都 需要 在 结尾 执行 一 个 JOIN 语句 ， 从 而 将 所 有 的 并 发 进程 归 约 到 同一 个 终止 点 上 ， 仅 当 所 有 
产生 的 并 发 进程 都 完成 ， 主 进程 才 可 以 执行 后 续 的 语句 。 通 常 使 
用 一 个 计数 器 来 保持 未 完成 进程 的 记录 。FORK/JOIN 结 构 本 质 
上 与 消息 传递 系统 中 的 派生 /退出 (spawn/exit) 操作 是 相同 的 ， px 

并 且 可 以 是 一 个 库 / 系 统 例 程 或 者 是 一 种 语言 结构 。 we 

UNIX 重 量 级 进程 (UNIX Heavyweight Process) 

像 UNIX 这 样 的 操作 系统 都 是 基于 进程 的 概念 设计 的 。 在 单 处 
理 器 系统 中 ， 处 理 器 必然 要 被 多 个 进程 分 时 共享 ; 处 理 器 的 使 用 从 
一 个 进程 切换 到 另 一 个 进程 。 进 程 的 切换 可 能 是 有 固定 的 时 间 间 隔 ， FORK 
也 可 以 是 当 活 动 进 程 的 执行 发 生 了 停 沾 时 发 生 。 当 一 个 进程 因为 茶 
种 原因 而 阻塞 执行 时 ， 比 如 等 待 WO 操 作 的 完成 ， 则 分 时 共享 系统 就 JOIN JOIN 
可 以 将 此 进程 调 出 处 理 器 。 在 多 处 理 机 系统 中 ， 进 程 的 执行 可 以 真 
正 地 并 发 。UNIX 系 统 提供 创建 进程 的 系统 调用 ， 从 而 可 以 使 用 这 
些 工具 来 编写 并 行程 序 。 当 然 ， 我 们 在 单 处 理 器 上 得 不 到 随 并 发 进 
程 数 的 增加 而 相应 提高 的 执行 速度 。( 实际 上 ， 执 行 速度 会 因为 创建 进程 和 进程 切换 导致 的 上 下 
文 变换 的 开销 而 降低 。) 

UNIX 系 统 调 用 fork ( ) 来 创建 新 进程 。 除 了 唯一 的 进程 ID 外 ， 被 创建 的 新 进程 〈 子 进程 ) 
是 调用 进程 的 完全 拷贝 (exact copy) 子 进 程 拥 有 其 父 进程 所 有 变量 的 拷贝 。 当 fork( ) 被 成 
功 调用 时 ， 向 子 进 程 返回 0 并 向 父 进程 返回 子 进程 的 进程 ID。( 如 果 失 败 ，fork( ) 返 回 给 父 
进程 - 1， 同 时 没有 子 进程 被 创建 。) 系统 调用 wait() (或 waitpid()) 和 exit() 被 用 于 
进行 进程 的 “join” 操 作 ，wait() 和 exit() 定 义 为 : 

wait (statusp); /*delays caller until sigmal received or one of its */ 

/*child processes terminates or stops */ 


主 程序 


FORK 





图 8-3 FORK-JOIN 结 构 


exit (status); /*terminates a process. */ 


因此 ， 一 个 子 进程 可 以 通过 以 下 的 方式 被 创建 : 


pid = fork(); /* fork */ 
Code to be executed by both child and parent 
if (pid == 0) exit(0); else wait(0); /* join */ 


(这 里 没有 给 出 检测 分 又 (fork) 是 否 出 错 的 代码 。) 如 果 父 进程 先 于 子 进程 到 达 “join” 点 ， 
则 父 进 程 将 等 待 子 进程 结束 ; 如 果子 进程 先 到 达 “join” 点 ， 则 子 进程 终止 。 这 个 程序 结构 基 
本 上 是 一 种 SPMD (单程 序 多 数据 ) 的 模型 。 像 这 种 模型 的 其 他 例子 一 样 ， 我 们 通常 使 用 控制 
语句 来 分 隔 不 同 进程 的 执行 代码 。 如 果子 进程 需要 执行 不 同 的 代码 ， 我 们 可 以 使 用 如 下 代码 : 
id = fork(); 
3 (Pia == 0) { 
code to be executed by slave 
} else { 
Code to be executed by parent 


} 
if (pid == 0) exit(0); else wait(0); 


每 个 进程 都 将 对 原 程序 中 的 所 有 变量 进行 复制 ， 作 为 这 个 进程 的 本 地 变量 ; 新 进程 的 变 
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量 都 被 赋予 与 原 变 量 相同 的 值 。 新 进程 (派生 进程 ) 将 在 分 叉 点 开始 执行 。 
8.2.2 线程 


使 用 UNIX fork 创 建 的 进程 是 一 个 “重量 级 ”进程 ; 它 是 一 个 完全 独立 的 程序 ， 拥 有 自己 
的 变量 、 堆 栈 和 存储 器 的 分 配 。 使 用 系统 调用 可 使 进程 共享 存储 器 空间 (参见 8.7 节 中 的 例子 )， 
但 重量 级 进程 在 时 间 和 存储 器 空间 上 (开销 ) 都 很 郧 贵 。 即 使 新 创建 的 进程 只 从 分 又“fork” 
点 开始 ， 一 个 拥有 自己 的 存储 器 分 配 、 变 量 、 和 堆栈 的 新 进程 还 是 需要 对 原 进 程 进行 完全 的 
拷贝 。 通 常 来 说 ， 这 种 对 原 进程 的 完全 拷贝 是 不 必要 的 ， 一 种 更 加 高 效 的 机 制 是 在 进程 中 定 
勾 称 为 线程 2 的 独立 并 发 序列 。 所 有 线程 共享 进程 的 同一 存储 器 空间 和 进程 的 全 局 变量 ， 因 
而 线程 在 时 间 和 存储 器 空间 上 的 开销 比 进程 本 身 要 小 得 多 。 图 8-4 中 解释 了 进程 和 线程 之 间 的 
区 别 。 进 程 的 一 些 最 基本 部 分 显示 在 在 图 8-4a 中 。 指 令 指针 (IP) 存储 的 是 下 一 条 要 执行 的 指 
令 的 地 址 ， 栈 用 于 过 程 调用 ， 还 包括 堆 (heap)、 系 统 例 程 和 文件 ; 而 如 图 8-4b 所 示 ， 进 程 中 
的 每 个 线程 都 有 自己 的 指令 指针 指向 本 线程 需要 执行 的 下 一 条 指令 ， 每 个 线程 还 有 自己 的 栈 
并 且 各 自 存储 一 些 关 于 寄存 器 的 信息 。 而 代码 和 其 他 部 分 则 由 各 个 线程 共享 。 


代码 堆 
= 月 日 
四 


a) 进程 








b) 线程 
图 8-4 进程 和 线程 之 间 的 区 别 


创建 一 个 线程 的 时 间 比 创建 一 个 进程 的 时 间 少 三 个 数量 级 。 此 外 ， 线 程 可 以 立即 访问 到 
共享 的 全 局 变量 。 同 样 重要 的 是 ， 线 程 的 同步 可 以 比 进程 的 同步 更 高 效 ， 因 为 进程 的 同步 需 
要 耗 时 的 系统 操作 ， 而 线程 的 同步 操作 则 上 内需 通过 访问 变量 即 可 实现 。 我 们 将 在 后 续 讨 论 中 
讲述 同步 的 问题 。 

生产 商 很 早 就 在 他 们 的 操作 系统 中 使 用 了 线程 机 制 了 ， 因 为 线程 提供 了 一 个 处 理 操作 系 


日 ”有 些 学 者 认为 轻 基 级 进程 和 线程 这 两 个 术语 是 有 区 别 的 ， 把 轻 量 经 进程 描述 为 一 个 内 核 线程 或 者 是 操作 系 
统 中 的 一 种 线程 。 
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统 内 部 并 发 活动 的 强大 而 又 优美 的 解决 方案 。 不 论 何 时 一 个 线程 的 活动 时 延 或 者 阻塞 ， 比 如 
等 待 IJO ， 则 另 一 个 线程 就 可 以 接手 使 用 处 理 器 。 多 线程 操作 系统 的 实例 包括 SUN Solaris、 
IBM AIX、SGI IRIX 和 Windows XP。 在 这 些 操作 系统 里 都 有 某 些 供用 户 在 他 们 的 程序 中 使 用 
线程 的 设施 ， 而 不 同 的 系统 其 设施 有 所 不 同 。 幸 运 的 是 ， 现 在 存在 着 一 个 线程 机 制 的 标准 ， 
Pthread (来 源 于 IEEE 可 移植 操作 系统 接口 (IEEE Portable Operating System Interface， 
POSIX) 1003.1 节 )， 它 已 被 广泛 采用 。 我 们 将 主要 针对 于 Pthread 展 开 讨 论 。 在 附录 C 中 提供 
了 一 个 Pthread 例 程 的 简略 的 列表 。 

多 线程 也 能 够 减少 消息 传递 中 产生 的 高 时 延 ， 因 为 当 一 个 线程 在 等 待 消 息 的 时 候 ， 系 统 
可 以 快速 的 从 一 个 线程 切换 到 另外 一 个 线程 ， 从 而 提供 了 一 个 强 有 力 的 机 制 来 实现 时 延 隐藏 。 
Solaris 线 程 机 制 中 则 有 一 些 消 息 传递 的 例 程 ， 但 Pthread 并 未 提供 这 些 例 程 [Sunsoft，1994]。 

1. 执行 Pthread 线 程 

在 Pthread 规 范 中 ， 主 程序 本 身 也 是 一 个 线程 。 如 图 8-5 所 示 ， 一 个 单独 的 线程 可 以 用 以 下 
例 程 来 创建 和 终止 : 


pthread t threadil; /* handle of special Pthread datatype */ 
pthread_create(&threadl ， NULL, (void *) Proct，(void *) &arg); 


pthread join(threadl, void *status); 


新 线程 开始 执行 例 程 Pproc1， 并 接受 一 个 参数 ， 在 本 例 中 为 karg。(pthread_create() 中 的 ， 


NULL 参 数 将 导致 系统 使 用 默认 的 线程 “属性 ”。) 系统 将 分 配 一 个 线程 ID 或 者 “句柄 "， 并 通 
过 在 对 该 线程 的 后 续 引 用 中 使 用 的 &threadi 获 得 。 如 果 调 用 pthread_join( ) 的 时 候 ， 
新 创建 的 线程 还 没有 完成 ， 则 它 被 用 于 pthread_join() 中 促使 调用 线程 等 待 新 产生 的 线 
程 终止 。 线 程 一 旦 终止 ， 则 被 系统 撤销 ， 释 放 其 占用 的 资源 。 而 线程 的 完成 状态 可 以 在 
pthread_join() 中 返回 (*status )。 如 果 该 线程 返回 值 ， 则 这 个 终止 状态 就 可 以 被 使 
用 (该 值 必 须 被 类 型 转换 为 void )。 如 果 线 程 不 需要 返回 任何 的 值 ， 则 指定 为 NULE 。 一 个 线 
程 也 可 以 通过 在 其 例 程 的 终点 自然 终止 (return())， 并 随 之 返回 其 终止 状态 ; 它 也 可 以 
通过 调用 pthread_exit(voidq*status ) 例 程 来 终止 和 撤销 ; 它 可 以 被 其 他 的 进程 撤销 
(“取消 ”)， 在 这 种 情况 下 ， 其 返回 的 状态 值 将 是 PTHREAD_CANCELED。 如 果 一 个 线程 需要 返回 
一 定 的 值 ， 则 需要 注意 在 茶 些 情 况 下 可 能 与 PTHREAD_CANCELED 搞 混 。 
主 程序 
' 线程 1 


1 

- 

! 

pe 
{ 


pthread_create (gthreadl, NULL, procl, &arg)}; 一 一 一 一 ， 


1 return(*status); 


1 
pthread_join(threadi, *status); 


图 8-5 pthread create() 和 pthread join() 
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pthread_join( ) 例 程 用 于 等 待 一 个 特定 的 线程 的 终止 。 要 创建 一 个 等 待 所 有 线程 的 障 
栅 ， 可 重复 使 用 pthread_join( ) 例 程 : 


for (i = 0; i < p; I++) 
pthread create(&thread{i], NULL, (void *) slave, (void *) &arg}; 


for (i = 0; i < p; i+t+) 
pthread_ join(thread{i], NULL); 


我 们 创建 一 个 线程 ID 的 数组 ， 并 使 p 个 从 线程 一 起 被 创建 和 终止 。 一 个 线程 可 以 通过 调用 例 程 
pthread_self ( ) 来 获得 它 的 线程 ID， 通 过 使 用 pthread_equal(thread1,thread2 ) 例 程 
比较 线程 的 ID 就 可 以 识别 特定 的 线程 。 其 中 ，thread1 和 thread2 是 线程 的 ID。 

2. 分 离线 程 

当 一 个 被 创建 的 线程 终止 的 时 候 ， 可 以 不 用 通知 它 的 创建 线程 ， 从 而 创建 线程 就 无 需 连 
接 (join)。 这 种 无 需 连结 的 线程 就 称 为 分 离线 程 (detached thread )， 如 图 8-6 所 示 。 这 种 分 离 
线程 终止 的 时 候 ， 会 被 撤销 并 释放 它们 所 占用 的 资源 。 在 创建 线程 时 通过 指定 线程 属性 可 得 
到 一 个 分 离线 程 。 在 创建 者 无 需 等 待 被 创建 线程 终止 的 情况 下 ， 就 应 使 用 分 离线 程 ， 因 为 这 
将 有 更 高 的 效率 。 

主 程序 


1 
pthread_create(); 线程 


1 
pthread create{(); 
1 


线程 | 


| 


pthread_create () 终止 
线程 
终止 


终止 
图 8-6 分 离线 程 

3. 线程 池 

所 有 以 前 应 用 于 进程 的 机 制 对 于 线程 都 是 适用 的 。 一 个 主线 程 需要 控制 一 系列 的 从 线程 。 
可 以 构成 一 个 线程 地， 线程 可 以 通过 共享 单元 或 者 用 信号 来 互相 通信 。 

4. 语句 执行 顺序 

一 旦 一 个 进程 或 者 线程 被 创建 后 ， 它 们 的 语句 执行 顺序 就 由 系统 来 决定 了 。 在 单 处 理 器 
的 系统 上 ， 处 理 器 由 多 个 进程 或 线程 分 时 共享 ， 如 果 事 先 没 有 指定 ， 则 语句 执行 顺序 由 系统 
来 决定 。 不 过 通常 情况 下 ， 如 果 一 个 线程 不 阻塞 的 话 ， 它 将 一 直 执 行 直到 结束 。 在 多 处 理 机 
系统 上 ， 则 会 有 不 同 的 进程 /线程 同时 在 不 同 的 处 理 器 上 执行 的 情况 出 现 。 不 管 在 哪 种 情况 下 ， 
我 们 必须 注意 到 各 个 进程 /线程 的 指令 可 能 在 时 间 上 是 交叉 的 。 比 如 ， 如 果 有 带 有 如 机 器 指令 
的 两 个 进程 : 


iD 
(AD 
~ 
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进程 1 进程 2 

指令 1.1 ”指令 2.1 

指令 1.2 ”指令 2.2 

上 令 1.3 ”指令 2.3 
则 有 很 多 种 可 能 的 顺序 ， 包 括 : 

指令 1.1 

间 令 1.2 

首 令 2.1 

指令 1.3 

引 邻 2.2 

指令 2.3 
假设 这 些 指令 不 可 再 分 为 更 小 的 可 中 断 步 。 比 如 ， 如 果 两 个 进程 都 要 打印 一 条 消息 ， 则 这 两 
条 消息 可 以 以 任 一 种 顺序 出 现 ， 这 依赖 于 调用 打印 例 程 的 这 两 个 进程 的 调度 情况 。 更 坏 的 情 
况 是 ， 如 果 打 印 例 程 的 实例 的 机 器 指令 也 可 以 交叉 执行 的 话 ， 则 这 两 条 消息 的 各 个 字符 也 可 
能 交叉 打印 出 来 。 

除了 在 进程 /线程 中 交叉 执行 机 器 指令 导致 的 进程 /线程 语句 执行 顺序 的 变化 外 ， 编 译 器 
(或 者 处 理 器 ) 也 可 能 因为 优化 执行 的 原因 在 保持 程序 逻辑 上 正确 的 前 提 下 重新 安排 指令 的 执 
行 顺序 。 比 如 ， 如 下 语句 : 

a=b+5; | 

x=Yy + 4; 

可 能 在 编译 后 以 颠倒 的 顺序 执行 ， 而 仍然 保持 其 逻辑 正确 性 : 

XxX=Y+ 4; 

a=b+5; 
因为 正在 处 理 器 执行 的 前 一 条 指令 需要 更 多 的 时 间 才 能 得 到 b 的 值 ， 所 以 将 a = b + 5; 拖 后 
执行 是 有 好 处 的 。 在 现代 的 超标 量 处 理 器 中 ， 经 常 以 乱 序 方式 执行 机 器 指令 以 提高 执行 速度 。 

5. 线程 安全 的 例 程 

如 果 一 个 系统 调用 或 者 库 例 程 / 库 函 数 同时 被 多 个 线程 调用 的 情况 下 仍然 都 能 得 到 正确 的 
结果 ， 则 这 个 系统 调用 或 者 库 例 程 称 为 是 线程 安全 的 。 例 如 ， 能 够 保持 完整 的 消息 被 打印 出 
来 而 不 会 出 现 字 符 交 叉 的 打印 例 程 就 是 线程 安全 的 。 幸 和 运 的 是 ， 标 准 IO 操 作 都 被 设计 为 线程 
安全 的 。 然 而 ， 那 些 访 问 共享 数据 或 者 静态 数据 的 例 程 就 需要 加 以 特殊 的 处 理 以 达到 线程 安 
人 全。 例如， 返回 时 间 的 系统 例 程 就 不 一 定 是 线程 安全 的 。 所 有 线程 安全 的 例 程 的 列表 可 以 在 
Ptheads 参 考 书 中 找到 ， 如 [Kleiman，Shah，. and Smaalders ，1996]。 事 实 上， 除了 那些 在 技 
术 上 难以 成 为 线程 安全 的 例 程 之 外 ， 几 乎 所 有 POSIX 例 程 被 定义 成 是 线程 安全 的 。 虽 然 一 般 
而 言 函 数 的 线程 安全 依赖 于 操作 系统 。 我 们 可 以 通过 强制 在 任何 时 间 点 只 有 一 个 线程 执行 某 
个 例 程 来 避免 例 程 的 线程 安全 问题 ， 这 可 以 通过 将 例 程 简单 的 包 右 在 一 个 临界 区 (参见 8.3.2 
节 ) 中 来 实现 ， 但 这 种 方法 是 非常 低 效 的 。 


8.3 共享 数据 


共享 存储 器 编程 的 主要 特征 是 共享 存储 器 提供 了 创建 出 能 够 直接 被 处 理 器 访问 而 不 用 像 
消息 传递 环境 中 那样 用 消息 来 传递 数据 的 变量 和 数据 结构 。 
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8.3.1 创建 共享 数据 


如 果 要 让 UNIX 中 的 重量 级 进程 共享 数据 ， 额 外 的 共享 存储 器 系统 调用 是 必要 的 。 通 常 
每 个 进程 在 虚拟 存储 器 管理 系统 中 都 有 自己 的 虚拟 地 址 空间 。 共享 存储 器 系统 使 得 进程 能 将 
elon 间 内 。 调 用 共享 存储 器 段 通过 系统 调用 shmget () 
(“获得 共享 存储 器 段 标识 符 ”) 来 创建 ， 这 个 系统 调用 返回 一 个 共享 存储 器 标识 符 。 一 旦 共享 
存储 器 段 创建 ， 就 可 以 使 用 系统 调用 shmat ) 来 将 这 个 共享 存储 器 段 链 入 成 为 调用 进程 的 数 
据 段 ，shmat ( ) 返 回 的 是 这 个 数据 段 的 起 始 地 址 。 在 8.7.1 节 中 可 以 看 到 使 用 这 些 调用 的 代码 
序列 。 

如 果 使 用 线程 ， 则 没有 必要 显 式 地 创建 共享 数据 项 。 在 主 程序 (主线 程 ) 的 顶部 声明 的 
变量 是 全 局 的 ， 可 以 被 所 有 线程 使 用 。 而 在 例 程 的 内 部 声明 的 变量 自然 是 局 部 的 。 


8.3.2 访问 共享 数据 


如 果 共 享 数据 被 进程 所 改动 ， 则 在 访问 这 些 共享 数据 的 时 候 就 需 加 倍 小 心地 控制 (我 们 
使 用 进程 这 个 术语 ,其 实 所 有 情况 也 适用 于 线程 )。 各 个 进程 读 同 一 个 共享 变量 不 会 导致 冲突 ， 
而 写 新 值 则 会 导致 圳 突 。 考 虑 有 两 个 进程 ， 每 一 个 都 要 对 一 个 共享 的 数据 项 x 加 1， 为 了 对 x 加 
1 我 们 可 以 将 代码 写成 是 x++; 或 者 x = x + 1;。 不 管 使 用 哪 种 写法 ， 都 会 进行 :将 x 单元 的 内 
容 读 出 ,计算 x + 1, 将 结果 写 回 到 该 单元 这 三 个 步骤 。 如 果 两 个 进程 几乎 同时 进行 这 个 操作 ， 
则 如 图 8-7 所 示 ， 会 有 : 


指令 进程 1 进程 2 
X=X+1; read x read x 
、. Compute x+1 compute x + 1 
时 间 由 由 
write to x write to x 


假设 初始 时 x 的 值 为 10。 则 当 进 程 1 和 进程 2 都 写 回 加 1 的 结果 后 ， 预 期 的 x 值 应 该 等 于 12。 而 实际 
情况 是 ， 两 个 进程 都 从 x 中 读 出 10， 并 最 终 都 写 回 11。 在 共享 数据 库 中 ， 当 多 个 进程 对 共享 数据 
同时 执行 算术 操作 时 就 会 出 现 上 述 的 情况 。 比 如 ， 在 [Nichols， 共享 变量 ,x 
Buttlar and Farrell ，1996] 中 就 提出 了 一 个 例子 一 一 两 个 自动 取款 
机 (ATM) 的 问题 (如 果 一 个 被 丈夫 使 用 ， 而 另 一 个 则 同时 被 
妻子 使 用 )。 来 自 不 同 源 的 自动 借方 也 会 出 现 类 似 情况 。 

. 访问 共享 数据 的 问题 可 以 归纳 为 共享 资源 的 访问 问题 。 除 
了 共享 数据 之 外 ， 资源 还 可 以 是 物理 设备 ， 比 如 输入 输出 设备 。 
人 确保 一 次 只 能 有 一 个 进程 访问 特定 的 共享 资源 的 机 制 是 ， 建 立 





涉及 到 这 个 其 享 资源 的 代 公 眉 即 所 谓 的 临 条 区 (critical section ) ， 进 种 1 这 到 
并 使 得 一 次 只 能 有 一 个 临界 区 被 执行 。 第 一 个 为 特定 资源 到 达 图 8-7 访问 共享 变量 时 
临界 区 的 进程 可 以 进入 并 执行 临界 区 。 一 旦 有 一 个 进程 进入 临 产生 的 冲突 


界 区 ， 则 其 他 进程 就 不 能 再 进入 了 ， 直 到 这 个 进程 完成 临界 区 ， 才 允许 另 一 进程 进入 同一 资 
源 的 临界 区 。 这 种 机 制 就 是 所 谓 的 互 斥 (mutual exclusion )。 

1. 锁 机 制 

确保 临界 区 互 斥 的 最 简单 的 机 制 就 是 使 用 锁 机 制 。 一 个 锁 是 一 个 1 位 的 变量 ， 这 个 变量 的 
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值 是 1 表示 有 一 个 进程 进入 了 临界 区 ; 如 果 是 0， 则 表示 没有 进程 在 临界 区 中 。 这 种 锁 的 操作 
类 似 于 普通 的 门 锁 。 一 个 进程 来 到 临界 区 的 “ 门 ”， 发 现 “ 门 ” 开 着 ， 它 就 进入 这 个 临界 区 ， 


”并 将 “ 门 ”关上 以 防止 其 他 的 进程 进入 。 一 旦 进程 完成 了 临界 区 ， 它 就 打开 “ 门 ”并 离开 。 


假设 一 个 进程 执行 到 了 一 个 锁 ， 且 这 个 锁 已 经 置 位 ， 则 这 个 进程 将 被 临界 区 排斥 。 它 于 
是 必须 等 待 ， 直 到 被 允许 进入 临界 区 为 止 。 进 程 在 一 个 紧凑 的 循环 中 不 停 地 检查 锁 位 ， 例 如 : 
while (lock == 1) do_nothing; /* no operation in while loop */ 


lock = 1; /* enter critical section */ 


critical section 
lock = 0; /* leave critical section */ 


这 样 的 锁 叫 做 自 旋 锁 (spin lock)， 而 这 种 机 制 就 叫做 已 等待 《busy waiting)。 图 8-8 显 示 了 通 
过 锁 机 制 而 实现 的 临界 区 串 行 化 。 忙 等 待机 制 在 处 理 器 的 利用 上 是 低 效 的 ， 因 为 在 等 待 锁 被 
释放 的 过 程 中 进程 没有 做 任何 有 用 的 工作 。 在 某 些 情况 下 ， 我 们 其 实 可 以 将 处 于 忙 等 待 的 进 
程 调 出 处 理 器 ， 并 调 入 其 他 的 进程 。 当 然 ， 这 种 做 法 会 在 保存 和 读 取 进程 信息 时 产生 一 定 的 
开销 。 另 外 ， 如 果 有 多 于 一 个 进程 在 等 待 锁 的 释放 ， 则 当 在 锁 释 放 的 时 候 ， 应 有 一 种 机 制 来 
选择 最 好 的 或 者 最 高 优先 级 的 进程 先进 入 临界 区 ， 而 不 是 通过 忙 等 待机 制 不 确定 地 选择 进入 
临界 区 的 进程 。 


进程 1 进程 2 
while (lock == 1) do_nothing; while (lock == 1)do_nothing; 
lock = 1; 


lock = 0; -一 
lock = 1; 


临界 区 


lock = 0; 


图 8-8 用 忙 等 待 控制 临界 区 


确保 不 能 有 多 于 一 个 的 进程 同时 进入 临界 区 是 很 重要 的 。 类 似 地 ， 如 果 一 个 进程 发 现 锁 
开 着 ， 而 在 它 关 闭锁 之 前 ， 另 一 个 进程 也 发 现 锁 开 着 ， 此 时 必须 保证 两 个 进程 不 会 同时 进入 
它们 的 临界 区 。 因 此 ， 检 查 锁 是 否 开 着 并 关闭 锁 的 操作 应 该 实现 为 是 不 可 中 断 的 。 在 此 过 程 
中 ， 任 何其 他 的 进程 都 不 能 对 锁 进 行 操作 。 这 种 互 斥 机 制 通常 采用 不 可 分 的 机 器 指令 以 硬件 
方式 (如 测试 置 位 指令 ) 来 实现 。 尽 管 锁 机 制 也 可 以 不 使 用 这 种 机 器 指令 的 方式 来 实现 〈 参 
见 [Ben-Ari，1990])。 在 后 续 的 讨论 中 ， 我 们 说 “加 锁 ” 或 者 “解锁 " ， 意 味 着 这 些 操作 的 执 
行 是 原子 性 〈 即 不 可 中 断 的 操作 ) 的 ; 也 就 是 说 ， 在 这 些 操作 的 执行 过 程 中 ， 没 有 其 他 的 进 
程 能 够 访问 该 锁 ， 或 者 影响 这 些 操作 的 执行 结果 。 

Pthread 锁 例 程 ”在 Pthread 规 范 中 ， 锁 通过 所 谓 的 互 斥 锁 (mutually exclusive lock 或 
“mutex”) 变量 来 实现 。 为 了 使 用 互 斥 锁 ， 首 先 它 必须 在 “ 主 ” 线 程 中 声明 为 
Pthread_mutex 七 类 型 并 初始 化 : 


pthread mtex_t mutexil; 
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pthread mutex_ init (&mutexl, NULL); 
NULEL 表 明 使 用 互 斥 锁 的 默认 属性 。 互 斥 锁 也 可 以 使 用 malloc 方 法 动态 地 创建 ， 并 通过 
pthread mutex_destroy() 例 程 被 撤销 。 通 过 使 用 pthread mutex lock() 和 和 
pthread mutex_unlock() 可 以 实现 对 临界 区 的 保护 : 


pthread mtex_lock (&mutex1),; 
critical section 


pthread mutex_unlock (gmutexl); 


如 果 一 个 线程 到 达 互 斥 锁 并 发 现 互 斥 锁 关闭 ， 则 它 将 等 待 直到 互 斥 锁 打 开 。 如 果 多 个 线程 等 
待 互 斥 锁 打 开 ， 则 当 其 打开 的 时 候 ， 系 统 会 选择 一 个 线程 来 进入 临界 区 。 只 有 加 锁 互 斥 锁 的 
线程 能 够 进行 解锁 。( 如 果 其 他 线程 尝试 解锁 的 话 ， 则 它 会 得 到 一 个 出 错 状态 。) 

2. 死 锁 

使 用 锁 机 制 时 一 个 重要 的 考虑 是 要 避免 死 锁 ， 因 为 死 锁 会 导致 进程 无 法 执行 下 去 。 对 两 
个 进程 而 言 ， 当 一 个 进程 需要 由 另 一 个 进程 保持 的 资源 而 这 个 进程 反 过 来 也 需要 由 这 个 进程 


保持 的 资源 的 时 候 就 会 发 生死 锁 ， 如 图 8-9a 所 示 。 (DR 
在 图 8-9a 中 每 个 进程 已 经 获得 了 两 个 资源 中 的 一 个 ， 有 所 有 权 
除非 某 个 进程 释放 男 一 个 进程 所 需 的 资源 ， 否 则 两 加 
个 进程 都 将 永远 停 襄 而 没有 进程 可 以 继续 。 死 锁 也 


可 能 以 循环 的 方式 出 现 。 这 里 牵涉 到 多 个 持 有 另外 a) 两 个 进程 死 锁 
一 个 进程 所 需 资 源 的 进程 ， 如 图 8-9b 所 示 。 进 程 P ，----------------------------、 


申请 访问 进程 P; 持 有 的 资源 Ra; 进程 P: 则 申请 访问 


进程 P; 持 有 的 资源 R;; 以 次 类 推进 程 P, 申 请 访问 进 
程 P, 所 持 有 的 资源 Ri'; 这样， 就 形成 了 一 个 死 锁 环 - 
境 。 这 种 特殊 形式 的 死 锁 就 叫做 死亡 拥抱 (deadly 


embrace ) 。 假 设 给 定 一 组 持 有 不 同 资源 请 求 的 进程 ， ) ,个 进程 死 针 
如 果 在 其 中 的 某 些 进程 之 间 的 资源 请 求 构成 了 环 路 ， 图 8.9 死 锁 (死记 拥抱) 
则 这 就 意味 着 有 潜在 的 死 锁 可 能 。 对 于 访问 多 个 资 
源 两 个 进程 而 言 ， 如 果 它 们 都 以 相同 次 序 先 请 求 某 个 资源 ， 然 后 再 请 求 另 一 个 资源 ， 就 可 以 
消除 死 锁 的 可 能 。 

Pthread 规 范 提供 一 个 例 程 Pthread_mutex_trylock()， 它 可 以 不 阻塞 线程 来 测试 一 
个 锁 是 否 真 的 关闭 。 这 个 例 程 可 以 将 一 个 未 加 锁 的 互 斥 锁 加 锁 并 随后 返回 0; 如 果 这 个 互 斥 锁 
已 经 加 锁 ， 则 它 会 返回 EBUSY。 这 个 例 程 对 解决 死 锁 的 问题 是 有 一 定 的 帮助 的 。 

3. 信号 量 

信号 量 (Semaphore) 的 概念 是 由 [Dijkstra，1968] 发 明 的 ， 它 是 一 个 非 负 的 整数 。 信 和 号 量 
有 两 种 操作 ， 分 别 命名 为 p 操 作 和 v 操 作 。p 操 作 作 用 在 信号 量 s 上 ( 写 做 p (s)) ， 使 进程 等 到 s 
变 为 大 于 0 后 ， 将 s 减 1， 此 后 才 允 许 进 程 的 继续 执行 。v 操 作 则 将 s 加 1， 如 果 存 在 等 待 s 的 进 
程 ， 则 将 其 中 一 个 释放 。p 操 作 和 v 操 作 都 是 不 可 分 的 操作 。( 字母 p 来 自 于 荷兰 语 的 单词 
passeren， 意 思 是 “通过 ”; 而 字母 v 则 来 自 于 荷兰 语 的 单词 vrijgeven， 意 思 是 “释放 ”。) 
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Pp 操作 和 v 操 作 中 的 唤醒 等 待 进程 的 机 制 也 是 隐 式 的 。 虽 然 这 个 机 制 所 使 用 的 实际 算法 没 
有 给 出 ,但 是 应 该 至 少 能 够 达到 公平 。 被 p(s) 操 作 停 灌 的 进程 应 被 搁置 直到 由 同一 信号 量 上 
的 v(s) 操 作 释放 。 进 程 可 以 使 用 自 旋 锁 〈《 忙 等 待 ) 停滞 ， 而 更 好 的 方法 则 是 将 它们 调 出 处 理 
器 ， 让 给 其 他 已 就 绪 的 进程 。 

访问 同一 资源 的 多 个 进程 临界 区 的 互 斥 可 以 通过 使 用 只 有 0 或 者 1 值 的 信号 量 〈 称 为 二 元 
信号 量 (binary semaphore)) 来 实现 。 这 种 信号 量 起 锁 变 量 的 作用 ， 而 p 和 v 操 作 包 含 一 个 进 
程 调度 的 机 制 。 这 种 信号 量 初始 化 为 1， 表 示 目 前 没有 与 此 信和 号 量 相关 的 进程 处 在 临界 区 里 。 
每 个 互 斥 的 临界 区 都 以 P(s) 开 头 ， 并 以 同一 个 信号 量 的 v(s) 结 尾 ， 即 : 


进程 1 进程 2 进程 3 
非 临界 区 非 临界 区 非 临界 区 
p(s) p(s) p(s) 
临界 区 临界 区 临界 区 
v(s) V(S) v(s) 
非 临界 区 非 临界 区 非 临界 区 


其 中 任何 一 个 进程 都 可 能 先 执行 到 它 的 p(s) 操 作 (或 者 多 个 进程 可 能 同时 到 达 p(s) 操 作 )。 第 
一 个 执行 到 p(s) 操 作 的 进程 ， 或 者 信号 量 检查 认可 的 进程 ， 会 把 信号 量 设 为 0， 禁 止 其 他 的 进 
程 继续 它们 的 p(s) 操 作 。 这 些 到 达 它 的 p(s) 操 作 的 任何 进程 都 会 被 记录 下 来 ， 以 便 将 来 临界 
区 释放 的 时 候 进 行 选择 。 被 认可 的 进程 则 可 以 执行 它 的 临界 区 。 当 这 个 进程 执行 到 v(s) 操 作 
的 时 候 ， 就 会 将 信号 量 s 设 为 1， 并 从 等 待 的 进程 中 挑选 出 一 个 ， 使 之 进入 临界 区 。 

更 为 一 般 的 信号 量 (或 者 称 为 计数 信号 量 ) 可 以 采用 正 整 数 而 不 是 0 和 1。 这 种 信号 量 提 
供 了 一 种 记录 可 用 的 或 者 已 用 的 “资源 单元 ”数目 的 方法 ， 并 且 可 以 用 于 解决 生产 者 /消费 者 
问题 。 

UNIX 进 程 中 有 信号 量 例 程 ， 而 在 Pthread 规 范 中 则 不 存在 ， 尽 管 我 们 可 以 实现 。 但 在 
Pthread 的 实时 系统 扩展 中 有 信号 量 例 程 。 在 8.7.1 节 中 我 们 将 给 出 UNIX 信 号 量 的 代码 的 示例 。 
概要 地 说 ， 我 们 可 以 使 用 semget (key,nsems,semf1g) 来 创建 信号 量 。 这 个 例 程 返回 与 
key 相 关 的 信号 量 标识 符 。Semct1l( ) 调 用 则 用 来 设置 信号 量 的 值 ， 而 p 和 V 操 作 是 用 Semop ( ) 
信号 量 操作 来 实现 的 ， 它 们 在 信号 量 数 组 上 完成 原子 的 操作 。 

4. 监控 程序 

众所周知 ， 虽 然 信 号 量 能 够 应 用 于 大 多 数 临 界 区 问题 的 处 理 ， 但 是 却 很 容易 招致 人 为 的 
使 用 错误 。 对 于 一 个 特定 信号 量 上 每 个 p 操 作 ， 都 必须 要 有 一 个 同一 信号 量 上 的 v 操 作 的 对 应 ， 
而 这 个 v 操 作 可 能 是 由 另外 的 进程 来 执行 的 。 遗 漏 一 个 p 操 作 或 者 v 操 作 的 使 用 ， 或 者 使 用 到 
错误 的 信号 量 上 面 ， 都 会 产生 严重 的 结果 。 一 种 更 高 级 的 技术 是 使 用 监控 程序 [Hoare，1974] 。 
监控 程序 是 一 组 过 程 ， 由 它 提供 对 某 个 共享 资源 的 唯一 访问 方法 。 基 本 上 所 有 的 数据 和 对 该 
数据 的 操作 都 被 封装 在 一 个 结构 里 。 对 数据 的 读 和 写 都 只 能 由 监控 程序 的 过 程 来 完成 ， 并 且 
在 任何 时 间 只 能 由 一 个 进程 使 用 监控 程序 的 过 程 。 如 果 在 某 个 进程 执行 监控 程序 过 程 的 时 候 ， 
另 一 个 进程 请 求 使 用 ， 则 这 个 请 求 的 进程 将 被 挂 起 ， 并 放 人 等 待 队列 中 。 当 活动 进程 对 监控 
程序 的 使 用 结束 后 ， 等 待 队列 中 的 第 一 个 进程 (如果 有 的 话 ) 将 被 允许 使 用 一 个 监控 程序 的 
过 程 。 

一 个 监控 程序 过 程 使 用 保护 它 入 口 的 一 个 信号 量 来 加 以 实现 ， 即 : 
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monitor_ proci () 
{ 
P (monitor_semaphore) ; 


monitor body 


V{(monitor_semaphore) ; 
return; 


} 


在 Java 中 就 有 监控 程序 的 概念 。Java 中 的 关键 词 synchronized 可 以 使 方法 中 的 一 段 代 
码 成 为 线程 安全 的 ， 它 可 防止 在 该 方法 中 有 多 于 一 个 的 线程 。 在 8.7.3 节 中 给 出 了 使 用 Java 监 
控 程 序 方法 的 一 个 简单 的 程序 。 读 者 可 以 参考 很 多 有 关 Java 的 书籍 以 了 解 更 多 的 细节 。 

5. 条 件 变量 

有 些 临界 区 通常 需要 特定 的 全 局 条 件 满 足 了 以 后 才 可 以 执行 ， 例 如 ， 某 个 变量 达到 了 一 
个 特定 的 值 。 如 果 使 用 锁 机 制 来 实现 ， 则 我 们 就 需要 在 临界 区 内 频繁 地 检查 这 个 全 局 变量 的 
值 (“查询 "，polled)， 显然 这 是 很 耗 时 而 又 无 效 的 。 所 以 ， 我 们 可 以 使 用 一 种 出 现在 监控 程 
序 的 上 下 文 内 部 的 称 为 条 件 变 量 (condition variables) 的 机 制 来 克服 这 个 问题 。 为 条 件 变量 
定义 了 如 下 三 种 操作 : 

Wait {cong_var) 一 一 等 待 条 件 出 现 

Signal (cond_var) 条 件 已 经 出 现 的 信号 

status (cond_var) 一 一 返回 等 待 条 件 出 现 的 进程 的 个 数 
等 待 操作 在 执行 过 程 中 将 释放 锁 或 者 信号 量 ， 并 且 可 以 用 于 让 其 他 的 进程 来 改变 这 个 条 件 。 
当 调 用 wait ( ) 的 进程 被 允许 执行 下 去 时 ， 锁 或 信号 量 被 重新 设置 。 丰 面 将 会 看 到 为 什么 解锁 
再 加 锁 是 必须 的 。 在 调用 signal( ) 前 ， 要 由 程序 来 识别 条 件 是 否 满足 。 

作为 使 用 条 件 变量 的 例子 ， 考 虑 一 个 或 多 个 设计 为 当 计数 器 x 的 值 为 0 时 采取 行动 的 进程 
(或 者 线程 )。 另 一 个 进程 (或 者 线程 ) 负责 计数 器 的 递减 。 该 例 程 形式 如 下 : 





action() counter () 
{ { 
lock (); lock(); 
while (x != 0) X--; 
wait(s); if (x == 0) signall(s); 
unlock(); unlock(); 


take_action(); 

) } 
在 counter 例 程 和 action 例 程 中 ， 使 用 同一 个 锁 来 对 共享 的 计数 器 变量 x 的 访问 进行 控制 。 我 们 
可 以 假设 action 例 程 先 执行 到 其 临界 区 ， 因为 即使 counter 例 程 先 执行 到 它 的 临界 区 ， 发 出 的 信 
号 由 于 不 被 记忆 而 可 能 丢失 。 在 action 例 程 里 ，wait ( ) 将 解锁 并 等 待 被 信号 s 释 放 。 当 
signal() 产 生 信 号 s 后 ，wait( ) 被 释放 。action 例 程 中 的 while 语 句 用 来 再 检查 这 个 条 件 是 
否 满足 ， 即 便 这 个 条 件 假设 已 经 成 立 。 这 种 “双重 检查 ”通常 是 必要 的 ， 因 为 它 可 以 用 来 进 
行 出 错 检查 ， 并 且 如 果 有 多 个 线程 /进程 可 以 同时 被 唤醒 或 者 其 他 的 信号 可 能 已 唤醒 线程 /进程 


的 情况 下 ， 这 种 双重 检查 特别 重要 。 
Pthread 的 条 件 变 量 ”Pthread 中 提供 了 与 指定 互 斥 锁 相关 的 条 件 变 量 。 为 了 在 程序 中 使 用 
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条 件 变 量 ， 我 们 通常 也 是 在 “ 主 ” 线 程 中 说 明 一 个 pthread_cond_t 类 型 的 变量 ;并 将 其 初 
始 化 : 
pthread_cond t condl; 
pthread cond init(&condl, NULL); 
NULL 用 来 说 明 将 使 用 互 斥 锁 的 默认 属性 。 条 件 变 量 可 以 通过 使 用 pthread_cond_destroy( ) 例 程 
Pthread 中 提供 了 两 个 例 程 来 使 一 个 线程 等 待 某 个 条 件 变量 的 信号 : 


pthread cond wait(condl, mutex1); 
pthread cond timedwait (condl, mtexl, abstime); 


例 程 pthread_cond wait() 人 负责 将 调用 线程 挂 起 ， 直 到 另外 的 线程 发 出 此 条 件 变 量 的 信号 
并 将 指定 的 互 斥 锁 解 锁 。( 这 两 个 动作 都 是 “原子 性 ”的 . ) 当 该 信号 被 接收 后 ， 互 斥 锁 被 加 
锁 并 且 调 用 返回 。 例 程 pthread_cond_timedwait() 除 了 在 系统 时 间 达 到 或 者 超过 了 
abstime 时 也 会 返回 外 与 pthread_cond_wait( ) 例 程 类 似 。 

Pthread 规 范 中 提供 了 两 个 例 程 用 来 从 调用 线程 向 另 一 个 线程 发 送信 号 释放 它 : 


pthread_cond signal (cond1); 
pthread cond broadcast (cond1); 


pthread_cond_signal() 例 程 释放 一 个 因为 等 待 条 件 变量 cond1 而 被 阻塞 的 线程 。 例 程 
pthread_cond_broadcast( ) 则 将 所 有 等 待 条 件 变 量 cond1 而 被 阻塞 的 线程 唤醒 。 然 而 ， 
只 有 一 个 处 于 等 待 状态 的 线程 能 够 获得 互 斥 锁 ; 而 其 他 的 则 被 置 于 等 待 互 斥 锁 的 状态 。 

给 定 变量 的 声明 和 初始 化 : 

pthread_ cond 七 condG1:; 

pthread mutex_t mutex]; 


pthread cond init(&condl, NULL); 
pthread mutex init (gmtexl, NULL); 


Pthread 的 信号 和 等 待 如 下 : 


action{) . counter () 
{ { 
pthread mtex_ lock(&mutexl); pthread mtex_ lock (&mutex!l); 
while (c !=0) Cc-——; 
pthread cond wait(condl,mutexl); if (c == 0) pthread cond siqnal {condl); 
pthread mutex unlock (mutexl); pthread mutex_ unlock (grmutexl); 


take_action(); 
) ) 


对 信号 将 不 加 以 记忆 ， 这 意味 着 线程 必须 已 经 是 在 等 待 信号 来 接收 它 。 

6. 障 栅 

如 消息 传递 系统 一 样 ， 在 共享 存储 器 程序 中 常 需要 进程 /线程 的 同步 。Pthread 不 具有 内 在 
的 障 机 (POSIX 1003.1j 扩 展 版 除外 )， 因 此 就 必须 使 用 条 件 变 量 和 互 斥 锁 手工 编写 障 机 ， 有 
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关 的 全 部 细节 已 超出 本 书 范 围 。 在 [Butenhof，1997]、[Kleiman，Shah，and Smaalders ， 
1996] 和 [Prasad，1997] 中 可 找到 有 关 的 编程 举例 。 障 机 实现 常 使 用 在 6.1.2 节 中 所 描述 的 集中 
式 计 数 器 方法 。 每 当 一 个 线程 到 达 障 栅 时 就 使 全 局 计数 器 加 1， 而 当 计数 器 到 达 所 定义 的 线程 
数 时 就 释放 所 有 线程 。 由 最 后 一 个 到 达 的 线程 发 出 广播 信号 pthread_cond_broadcast() 
并 待 其 他 正 等 待 的 线程 接收 该 信号 后 ， 就 实现 了 对 所 有 进程 的 释放 (在 一 个 循环 中 使 用 
Pthread_cond_ wait() )。 然 后 将 计数 器 置 位 成 0 以 供 障 栅 的 下 一 次 使 用 。 

如 同 消息 传递 系统 中 的 障 机 一 样 ， 必 须 考虑 障 栅 可 被 多 次 调用 ,而且 实 现时 必须 处 理 其 
他 线程 还 没有 第 一 次 离开 障 栅 之 前 一 个 线程 已 第 二 次 进入 障 机 的 情况 。 在 第 6 章 中 我 们 已 看 到 
一 种 具有 到 达 障 栅 和 离开 障 机 两 阶段 的 设计 方法 ， 它 可 防止 这 种 情况 的 出 现 。 

[Butenhof，1997] 提 出 了 一 种 不 同 的 实现 ， 他 使 用 一 个 与 障 机 有关 的 称 为 count 的 变量 ， 
用 来 计数 到 达 障 栅 的 线程 ， 并 使 用 另 一 个 取 值 为 0 或 1 的 、 名 为 cycle 的 变量 。 当 线程 到 达 障 
栅 时 ， 保 存在 每 个 线程 中 的 变量 cyc1le 是 一 个 局 部 变量 。 当 障 栅 的 一 个 周期 结束 时 由 最 后 一 
个 到 达 障 栅 的 线程 将 变量 cyc1le 倒 置 ( 即 从 0 变 为 1 或 从 1 变 为 0)。 仅 当 存放 在 线程 中 的 cycle 
值 不 同 于 cycle 的 实际 值 时 线程 才 被 释放 (pthread_conqd_wait() 在 while 的 循环 中 ， 
仅 当 cycle 局 部 值 与 cycle 值 不 同时 循环 才 会 终止 。) 这 里 没有 涉及 共享 存储 器 障 栅 编 程 的 其 
他 方面 ， 例 如 ， 如 何 避 免 在 线程 未 被 创建 之 前 和 被 初始 化 之 前 去 访问 障 栅 这 样 的 错误 条 件 。 
详情 可 在 [Butenhof，1997] 中 找到 。 


8.4 并 行程 序 设 计 语言 和 构造 
8.4.1 并 行 语言 


使 用 专门 设计 的 并 行程 序 设计 语言 似乎 一 直 有 所 呼吁 ， 特 别 是 对 共享 存储 器 系统 。 共 享 
存储 器 变量 可 以 如 同 程序 中 任何 变量 那样 加 以 说 明和 访问 。 并 行程 序 设计 语言 提供 了 一 个 高 
层次 的 抽象 ， 且 能 隐蔽 实际 计算 平台 体系 结构 的 某 些 细节 。 并 行程 序 设 计 语 言 的 发 展 已 有 很 
长 历史 。 在 这 些 年 中 ， 已 提出 了 许多 并 行程 序 设计 语言 ， 但 没有 一 个 能 被 普遍 接受 。 表 8.1 列 
出 了 几 种 早期 开发 的 并 行程 序 设计 语言 。[Bal ，Steiner，and Tanenbaum ，1989] 列 出 了 直至 
1989 年 的 、 大 量 的 有 关系 统 /语言 的 参考 文献 。 某 些 语 言 是 为 开发 通用 控制 并 行 性 而 设计 的 
( 即 不 同 进程 中 的 指令 是 分 别 加 以 控制 的 )。 而 另 一 些 语言 则 专门 是 为 了 开发 数据 并 行 性 ( 即 
由 一 条 指令 指明 针对 一 组 数据 项 的 相同 操作 )。[Karp and Babb，1988] 描 述 了 12 种 并 行 Fortran 
语言 。[Foster，1995] 则 详细 叙述 了 3 种 并 行程 序 设计 语言 : Compositional C++、Fortran ML 人 
及 高 性 能 Fortran (HPF)。 由 [Wilson and Lu，19961 编 辑 的 巨著 中 ， 详 尽 叙述 了 编写 并 行程 序 的 
15 种 不 同 语言 ， 它 们 都 将 C++ 作 为 基本 语言 。( 其 中 只 有 一 种 语言 是 面向 共享 存储 器 多 机 系统 
的 。) 在 20 世 纪 80 年 代 和 90 年 代 所 提出 的 所 有 语言 中 ， 到 目前 仅 有 HPF 语 言 还 能 在 某 些 场 合 下 
看 到 。 

人 们 为 并 行程 序 设 计 提 供 语言 扩展 仍 有 不 断 增 长 的 兴趣 。 最 近 的 一 个 例子 是 Unified 
Parallel C (UPC)， 它 是 对 C 的 扩展 ， 由 学 术 界 、 工 业界 及 政府 联盟 开发 (参见 
http://www.gwu.cdu/~upc )。 这 种 团队 的 努力 有 望 被 接受 。UPC 对 原来 的 基本 语言 只 作 了 相对 
较 少 的 扩展 ， 并 主要 是 面向 机 群 那样 的 分 布 式 共享 存储 器 系统 (参见 第 9 章 )。 与 其 选择 如 
UPC 那 样 的 语言 扩展 ， 不 如 让 我 们 简短 地 回顾 出 现在 这 种 扩展 中 的 ， 或 出 现在 针对 共享 存储 
器 系统 的 并 行程 序 设 计 语 言 中 的 这 些 构 造 ， 以 及 使 用 这 些 构 造 的 语言 /扩展 。 


[se] 
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表 8-1 一 些 早期 的 并 行程 序 设 计 语 言 








语 言 创始 者 /时 间 注解 
Concurrent Pascal Brinch Hansen, 197S9 Pascal 的 扩展 
Ada U.S. Dept. of Defense ，19792 全 新 语言 
Modula-P Briunl ，19869 Modula 2 的 扩展 
C* Thinking Machines,1987® SIMD 系 统 的 C 扩 展 
Concurrent C Gehani and Roome, 19899 C 扩 展 
Fortran D Fox et al.，1990@ 用 于 数据 并 行程 序 设计 的 Fortran 扩 展 





@ Brinch Hansen, P (1975), “The Programming Language Concurrent Pascal,” JEEE Trans. Software Eng., Vol.1, 
No.2(June), pp. 199-207. | 

©® U.S. Department of Defense (1981), “The Programming Language Ada Reference. Manual,” Lecture Notes in 
Computer Science, No.106, Springer- Verlag, Berlin. : 

®@ Briunl, T,, R. Norz(1992), Modula-P User Manual, Computer Science Report, No.5/92 (August). Univ. 
Stuttgart, Germany. 

@® Thinking Machines Corp. (1990), C* Programming Guide, Version 6, Thinking Machines System 
Documentation. 

©®@ Gehani, N., and W. D. Roome (1989), The Concurrent C Programming Language, Silicon Press, New Jersey. 

© Fox,G.,S. Hiranandani, K. Kennedy, C. Koelbel, U. Kremer, C. Tseng, and M. Wu (1990), Fortran D Language 
Specification, Technical Report TR90-141, Dept. of Computer Science, Rice University. 


8.4.2 并 行 语言 构造 


1. 共享 数据 
在 支持 共享 存储 器 的 并 行程 序 设计 语言 中 ， 变 量 可 以 被 定义 成 是 共享 的 ， 如 


shared int x; 


或 者 ， 如 果 是 一 个 指针 


shared int* p; 


其 中 ，p 是 一 个 指向 共享 整数 的 指针 。 这 类 说 明 并 不 必定 意味 这 个 变量 可 被 多 个 进程 同时 访 
问 ; 它们 只 是 简单 地 表示 任何 进程 可 以 访问 这 一 变量 。 一 个 合适 的 机 制 需 在 适当 的 位 置 去 保 
证 实际 上 每 次 仅 能 有 一 个 进程 访问 该 变量 。UPC 有 如 上 的 共享 说 明 (shared)， 且 还 有 对 数 
组 的 共享 说 明 ， 而 数组 中 的 元 素 被 分 布 在 不 同 的 线程 中 。 共 享 的 概念 也 能 在 一 个 面向 对 象 语 
言 中 被 扩展 成 为 共享 对 象 。 

2. par 构 造 

并 行 语言 提供 了 指明 并 发 语句 的 可 能 性 ， 如 在 Par 构 造 中 : 


par { 
sl; 
S2; 


Sn; 
} 
关键 字 par 指 明 体 中 的 语句 需 并 发 执行 。 这 是 指令 级 的 并 行 性 。 在 指令 级 的 并 行 性 中 ， 
并 发 进程 可 仅 为 一 个 语句 。 在 许多 系统 中 ， 单 语句 可 导致 无 法 接受 的 开销 ， 虽 然 构造 允许 这 
种 可 能 性 。 
多 个 并 发 进程 或 线程 可 以 通过 列 出 需 被 并 发 执行 的 例 程 来 加 以 说 明 : 
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par { 
procl (); 
proc2 (); 


procn () ; 

} 

其 中 ，procl()，proc2()，…，procn()， 如 果 可 能 的 话 可 并 发 执行 。 

在 许多 并 行 语言 中 都 有 par{…} 构 造 ; 例如 CC++[Foster，1995]。 对 于 类 Pascal 并 行 语言 ， 
我 们 可 以 看 到 PARBEGIN…PAREND 构 造 或 COBEGIN…COEND 构 造 。 更 早 的 例子 可 在 ALGOL-68 
中 找到 。 由 逗号 而 不 是 分 号 分 割 开 的 语句 (或 复合 语句 ) 的 执行 顺序 未 加 定义 ; 即 在 一 个 单 
处 理 器 系统 中 ， 这 些 语句 可 按 任 何 次 序 执行 ， 而 在 一 个 多 处 理 机 系统 中 可 同时 执行 。 

3. forall 构 造 

有 时 多 个 相似 进程 需要 一 起 开始 执行 。 这 可 以 用 forall 构 造 (或 parfor 构 造 ) 实现 : 

forall (i = 0; i < p; i++) { 

s1; 
52; 
Sm; 

} 

它 将 生成 个 进程 ， 每 个 由 构成 for 循 环 体 的 语句 S:，S:，…，Sa 所 组 成 。 每 个 进程 使 用 一 个 
不 同 的 i 值 。 例 如 ， 
forall (i = 0; i < 5; i++) 
a[i] = 0; 

将 并 发 地 把 a[0]、a[1]、a[2]、a[3] 和 af[4] 清 为 0。 在 [Terrano, Dunn, and Peters，1989] 
中 可 找到 基于 C 语 言 的 并 行 语言 的 foral1 构 造 的 一 个 例子 。 在 CC++[Fosten 1995] 中 也 可 发 现 
类 似 的 parfor 构 造 。 高 性 能 Fortran (HPF) 也 有 foral11 构 造 。UPC 的 fora1L1 构 造 还 有 一 
个 指明 体 如 何在 线程 中 分 布 的 独特 特征 。 


8.4.3 相关 性 分 析 


并 行程 序 设 计 中 的 一 个 关键 问题 是 要 确定 哪些 进程 可 在 一 起 执行 。 当 使 用 一 个 并 行程 序 
设计 语言 时 人 们 希望 编译 器 能 指出 阻止 并 发 执行 的 问题 所 在 。 如 果 进 程 之 间 有 相关 性 ， 则 这 
些 进程 就 不 能 一 起 执行 ， 而 必须 顺序 执行 。 寻 找 程序 中 相关 性 的 过 程 就 叫做 相关 性 分 析 
(dependency analysis)。 上 比如， 我 们 马上 就 可 以 从 下 面 的 代码 中 发 现 这 个 forall 执 行 体 的 每 个 
实例 都 是 独立 于 其 他 实例 的 ， 它 们 可 以 同时 执行 : 

forall (i = 0; i < 5; I++) 

a[i] = 0; 

然而 ， 像 下 面 的 代码 这 种 关系 就 不 是 很 明显 : 

forall (i = 2; i < 6; i++) { 
XxX= i - 2*i + ix*i; 
a[i] = PLXx]; 

} 


在 这 种 情况 下 ， 体 中 的 不 同 实例 是 否 能 同时 执行 就 很 不 明显 。 为 此 我 们 需要 一 种 更 可 取 的 算 


法 性 的 方法 来 识别 实例 之 间 的 相关 性 ， 这 种 方法 可 由 并 行 化 编译 器 (parallelizing compiler) 


(一 种 能 将 顺序 代码 转换 成 并 行 代码 的 编译 器 ) 加 以 使 用 。 
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Bernstein 条 件 

[Bernstein，1966] 设 立 了 一 组 条 件 ， 这 组 条 件 足以 决定 两 个 进程 是 否 可 以 同时 执行 。 我 们 可 
以 将 这 些 条 件 演绎 成 简单 的 形式 ， 这 些 条 件 与 在 进程 执行 中 由 用 来 存放 这 些 被 读 出 或 被 改变 的 变 
量 的 进程 所 使 用 的 存储 单元 有 关 。 首 先 我 们 定义 两 组 存储 单元 , 1 (输入 ) 和 O (输出 )， 使 得 : 

Zi 是 进程 Pi 读 取 的 所 有 存储 单元 的 集合 。 

Oi 是 进程 Pj 改变 的 所 有 存储 单元 的 集合 。 
对 于 要 同时 执行 的 两 个 进程 P, 和 P;，Pi 的 输入 一 定 不 能 是 P; 输出 的 一 部 分 ， 并 且 P; 的 输入 也 
一 定 不 能 是 Pi 的 输出 的 一 部 分 ， 即 


M0,=0 

bhMOi=9 
其 中 名 表示 空 集 。 同 时 两 个 进程 的 输出 集合 也 必须 不 同 : 

Oi 六 O2 = 中 


上 述 三 个 条 件 就 是 我 们 所 说 的 Bernstein 条 件 。 
如 果 这 三 个 条 件 全 都 满足 ， 那 么 两 个 进程 就 可 并 发 执行 。 这 些 条 件 可 以 应 用 于 任意 复杂 
性 的 进程 情况 。 进 程 可 以 是 一 条 语句 ， 此 时 允许 我 们 决定 两 个 语句 是 否 可 同时 执行 。 在 这 种 
情况 下 ，1; 就 对 应 于 语句 右边 的 变量 ， 而 Oj 则 对 应 于 语句 左边 的 变量 。 
例 : ”假设 有 两 条 语句 (以 C 语 言 表示 ): 
a=xXxX+y; 
b=x+2; 


则 我 们 有 
1 = (%, y) 
1 = (x, z) 
O01 = (a) 
O2 = (b) 
并 且 Bernstein 条 件 
1 MO,=0 
mmOI = 
O01 M0O,=9 
满足 。 因 此 ， 这 两 条 语句 a = x + y 和 b = x + z 就 可 以 同时 执行 。 如 果 我 们 假设 有 以 下 两 条 语句 : 
b=at+t b, 
由 于 PnO < 名， 故 这 两 条 语句 就 不 能 同时 执行 。 
这 种 方法 可 以 扩展 为 确定 多 个 语句 是 否 能 够 并 行 执行 。Bernstein 条 件 可 以 集成 到 编译 器 
中 以 自动 地 实现 对 程序 的 检查 ， 同 时 也 可 由 程序 员 人 工地 执行 。 这 些 条 件 都 是 非常 普通 的 ， 
在 寻找 并 行 性 时 ， 无 需 使 用 任何 特殊 的 计算 。 它 们 可 用 来 识别 指令 级 并 行 或 粗 粒度 的 并 行 性 。 


， 粗 粒度 并 行 性 考虑 的 是 一 组 例 程 之 间 的 并 发 操作 问题 。 在 那 种 情况 下 ， 例 程 的 参数 是 输入 ， 


而 返回 的 变量 / 值 则 是 输出 。 
一 些 普通 的 程序 设计 结构 具有 自然 的 编译 器 或 程序 员 能 加 以 利用 的 并 行 性 ， 特 别 是 在 程 
序 的 循环 中 。 例 如 ，C 循 环 
for (i = 1; i <= 20; i++) 
a[lil] = bli]; 


可 以 扩展 为 
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ar[1] = b[1]; 
af2] = bi2]:; 
a[1i9] = b{19]; 


af20] = b[20}; 
当 给 定 20 个 处 理 器 上 时， 这些 语句 便 可 同时 执行 (Bernstein 条 件 满足 )。 
有 时 将 循环 分 解 成 多 个 相互 独立 的 小 循环 以 处 理 循环 中 的 相关 性 。 例 如 ，C 循 环 


for {i = 3; i <= 20; i++) 
afil = a[i-2] + 4; 


计算 
a[l3] = all + 4; 
a[l4l] = al2] + 4; 


a[19] - af17] + 4; 

af20] = a[18] + 4; ， 

这 里 a[5] 只 有 在 a[ 3] 得 到 后 才能 进行 计算 ，a[6] 则 只 有 在 a[4] 得 到 后 才能 计算 ,以 
此 类 推 。 这 个 计算 过 程 可 被 分 为 以 下 两 个 独立 的 序列 : 


af3] = a[l] + 4; ar4] = a[l2} + 4; 

af5] = af3] + 4; af6] = af4]j + 4; 

aft7] = 忌 [15] + 4; a[1l8] = af16] + 4; 

a[1l9] = af17] + 4; a[20] = a[18] + 4; 
或 者 写 为 两 个 for 循 环 : 


for (i = 3; 1 <= 20; ii+=2) { 
ar[il = a[i-2] + 4; 
} 


和 
for (i = 4; j <= 20; i+=2) { 
afil = afi-2] + 4; 
} 
Bernstein 条 件 可 以 用 来 识别 这 两 个 循环 。 除 此 之 外 ， 并 行 编译 器 还 可 以 使 用 许多 其 他 技术 来 
识别 或 创建 并 行 性 。 我 们 可 以 在 [Wolfe、1996] 中 找到 用 于 并 行 编译 器 的 各 种 技术 的 详细 内 容 。 


8.5 OpenMP 


在 前 面 两 节 中 ， 我 们 已 讨论 了 在 并 行程 序 设计 语言 中 用 来 说 明 并 行 性 的 语言 构造 。 有 代 
表 性 的 是 ， 这 些 构 造 是 对 现 有 顺序 语言 的 扩展 。 尽 管 这 些 并 行程 序 设 计 的 构造 显示 出 是 一 种 
很 吸引 人 的 方法 ,而 且 有 几 种 顺序 语言 的 扩展 已 开发 了 多 年 ， 但 它们 只 获得 了 很 有 限 的 成 功 。 
另 一 种 方法 是 从 一 般 的 顺序 程序 设计 语言 出 发 ， 但 通过 明智 地 使 用 谍 入 的 编译 器 命令 来 建立 
并 行 说 明 。 这 些 编译 器 命令 可 说 明 在 8.4.2 节 中 描述 过 的 par 和 foral1 那 样 的 操作 。OpenMP 
采用 了 这 种 方法 ，OpenMP 是 在 20 世 纪 90 年 代 后 期 由 一 群 工业 界 的 专家 们 所 开发 的 一 个 已 被 接 
受 的 标准 。OpenMP 由 一 个 小 型 的 编译 器 命令 集 组 成 的 ， 一 个 扩展 的 小 型 库 函 数 和 使 用 Fortran 
和 C/C++ 基本 语言 的 环境 变量 所 组 成 。 有 好 几 种 可 用 的 OpenMP 编 译 器 ， 其 中 有 些 对 学 术 界 是 
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可 以 免费 使 用 的 。 
对 于 C/C++，OpenMP 命 令 被 包含 在 #pragma 语 句 中 。OpenMP 的 #pragma 语 句 的 格式 为 : 


#pragma omp directive name ... 


其 中 ，omp 是 OpenMP 的 一 个 关键 字 ， 在 命令 名 后 可 以 有 附加 的 参数 ( 子 句 )， 以 供 不 同 的 选 
用 。 某 些 命令 需要 在 紧 随 命令 后 的 结构 块 (一 条 语句 或 若干 条 语句 ) 中 用 代码 进行 说 明 ， 此 
时 的 命令 与 结构 块 一 起 组 成 一 个 “构造 ”*。 正 规 的 C/C++ 编译 器 将 不 理会 #pragma 语 句 。 如 果 
谨慎 地 使 用 #pragma 语 句 来 编写 并 行程 序 ， 则 正规 的 C/C++ 编译 器 将 生成 一 个 可 执行 的 顺序 
程序 ， 而 一 个 OpenMP 的 编译 器 将 生成 同一 程序 的 并 行 版 本 。 编 译 器 命令 方法 的 另 一 个 优点 是 
OpenMP 编 译 器 可 进行 相关 性 分 析 和 语句 次 序 的 重新 安排 ， 这 已 在 8.4.3 节 中 提 及 (在 那 一 节 还 
叙述 了 更 多 更 先进 的 分 析 和 语句 重 排序 方法 )。 程 序 员 可 获得 这 些 分 析 的 结果 ， 并 帮助 编译 器 
对 语句 次 序 重新 安排 。 由 于 有 时 单独 使 用 命令 来 说 明 并 行 性 比较 麻烦 ， 所 以 OpenMP 也 有 少量 
的 库 例 程 ， 主 要 是 用 来 创建 锁 和 设置 并 发 程度 。 

在 本 小 节 ， 我们 将 简短 地 描述 在 OpenMP 中 所 提供 的 主要 特征 。 在 附录 C 中 汇总 了 
OpenMP 中 的 所 有 特征 ， 而 更 多 的 细节 可 在 [OpenMP Architecture Review Board，2002] 和 
[Chandra et at.，2001] 中 找到 。 

OpenMP 使 用 在 8.2.1 节 中 所 叙述 的 分 又- 汇合 (fork-join) 模型 ， 但 基于 线程 。 开 始 时 ， 
由 主线 程 执行 一 个 单线 程 。 并 行 区 域 是 可 由 多 个 线程 (线程 组 ) 执行 的 代码 段 。parallel 
命令 ( 见 下 面 ) 用 来 创建 一 组 线程 ， 并 指明 一 个 可 由 多 个 线程 并 行 执行 的 代码 块 。 线 程 组 中 
的 确切 线程 数 可 从 多 种 方法 中 选用 一 种 方法 加 以 确定 。parallel 构 造 中 的 其 他 命令 用 来 指 
明 循 环 的 并 行 以 及 线程 的 不 同 代码 块 。 可 用 命令 中 的 private( ) 子 句 、thread_private 
命令 或 其 他 方法 将 数据 声明 为 私有 变量 。 当 用 thread_private 命 令 创 建 时 ， 该 私有 变量 将 
从 一 个 并 行 区 域 持续 到 下 一 个 ， 即 这 些 变 量 值 将 保持 不 变 。 其 他 数据 则 为 共享 。 

1. Parallel 命令 

OpenMP 中 的 基本 命令 是 parallel 命 令 

#pragma omp parallel 

structured block 

它 将 创建 多 个 线程 ， 每 个 线程 将 执行 所 指定 的 structured block。structured block 
可 以 是 一 条 语句 或 是 用 {…} 创 建 的 一 个 复合 语句 ， 但 必须 只 有 一 个 人 口 和 一 个 出 口 。 在 该 构造 
的 结束 处 有 一 个 隐 含 的 障 栅 。 如 果 已 定义 OMP_NUM_THRERADS 且 本 地 变量 it 没有 越界 ， 则 该 命令 
就 相应 于 前 面 的 forall 构 造 

forall(i = 0; i < OMP_NUM_THREADS; I++) 

structured block 
例 
#pragma omp parallel private(x, num_ threads) 
x = om get thread num(); 
num threads = omp_get_num threads(); 
a{x] = lO0*num threads; 
} 


其 中 使 用 了 两 个 库 例 程 ，omp_get_num_threads ( ) 将 返回 在 并 行 命令 中 并 发 使 用 的 线程 
数 ， 而 comP_get_thread_num( ) 将 返回 线程 号 (从 0 到 omp_get_num_threads ( ) -1 的 
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一 个 整数 值 ， 其 中 线程 0 为 主线 程 )。 数 组 a[ ] 为 全 局 数组 ， 而 x 和 num_threads 被 说 明 为 是 
线程 的 私有 变量 。 

线程 组 中 的 线程 数 可 用 下 列 任 一 方法 按 给 定 的 顺序 设 定 : 

1) 在 parallel 命 令 后 用 num threads 子 句 。 

2) 在 库 例 程 被 调用 之 前 用 omp_set_num threads()。 

3) 用 环境 变量 OMP_NUM THREADS 加 以 定义 。 


如 果 不 使 用 上 述 任 一 方法 ， 则 线程 数 将 取决 于 系统 。 可 用 的 线程 数 也 可 通过 “动态 调整 ”机 
制 自动 地 加 以 改变 以 达到 最 佳 地 使 用 系统 资源 。 当 线程 数 大 于 可 用 处 理 器 数 时 ， 将 得 不 到 最 
佳 性 能 ， 因 为 那 时 多 个 线程 将 不 得 不 分 时 共享 处 理 器 。 如 果 代 码 中 有 足够 的 并 行 性 ， 则 通常 
在 线程 数 与 可 用 处 理 器 数 相等 时 ， 就 可 最 佳 地 使 用 资源 。( 注 意 ， 因 为 在 系统 上 可 能 运行 有 其 
他 任务 ， 故 可 用 处 理 器 可 能 少 于 系统 中 的 处 理 器 总 数 。) 只 要 不 是 按 默认 方式 进行 ， 动 态 调整 
就 能 在 程序 执行 前 进行 ， 这 只 要 设置 环境 变量 OMP_DYNAMIC 就 可 实现 。 当 程序 执行 时 ， 可 
在 并 行 区 外 用 库 冰 数 omp_set _num dynamic(int num threads ) 对 动态 调整 功能 进行 
激活 和 抑制 。 如 果 是 激活 ， 则 每 个 并 行 区 将 使 用 能 最 佳 地 利用 系统 资源 的 线程 数 。 使 用 这 一 
选项 意味 着 程序 必须 编写 成 在 并 行 区 中 能 以 不 同 的 线程 数 工 作 。 
2. 工作 共享 
在 这 一 分 类 中 有 三 个 构造 : sections、for 和 single。 在 所 有 情况 下 ， 于 构造 的 末尾 
有 一 个 隐 含 的 障 顶 ， 除 非 该 构造 中 含有 子 句 nowait。 应 注意 的 是 ， 这 些 构 造 并 不 启动 一 个 新 
线程 组 。 新 线程 组 的 启动 在 引入 parallel 构 造 时 就 已 完成 。 
(1) Sections ( 段 ) 构造 
#pragma omp sections 
{ 
#pragma omp section 
structured block 
#pragma omp section 
structured block 


} 
将 使 结构 块 在 组 内 的 线程 间 共 享 。 注 意 ， 这 里 使 用 了 加 ragma cmp sections 和 pragma cme section 
两 个 命令 。#pragma omp sections 出 现在 结构 块 集 前 , 而 #pragma omp section 则 
需 出 现在 每 个 结构 块 前 。 第 一 个 段 命令 是 可 选 的 。 

该 构造 对 应 于 前 面 叙述 的 par 构 造 : 

par { 


structured bjock 
structured block 


structured block 
} . 
它 指明 所 有 结构 块 可 以 而 且 应 读 并 发 执行 。 但 是 否 能 做 到 这 一 点 将 依赖 于 可 用 的 处 理 器 数 。 
(2) For Loop (For 循环 ) 命令 


#pragma om for 
for_loop 
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将 使 foz 循 环 划分 成 几 个 部 分 ， 而 这 些 部 分 将 由 组 内 的 线程 共享 。fozr 循 环 必 须 是 规范 的 形式 ， 


[We 


即 具有 一 个 简单 的 初始 化 表达 式 ， 一 个 简单 的 布尔 条 件 ， 和 一 个 简单 的 增 量 表达 式 (在 
OpenMP 的 规范 文档 中 对 此 作 了 全 面 的 描述 )。 分 割 for 循 环 的 方法 可 由 一 个 附加 的 “调度 ” 子 
名 加 以 说 明 。 例 如 ， 子 句 schedule (static,chunk size) 将 使 for 循 环 按 chunk size 
所 指明 的 大 小 进行 分 割 、 且 以 轮转 方式 分 配给 线程 。 

(3) Single (单一 ) 命令 


#pragma omp single 
structured block 


将 使 结构 块 仅 由 一 个 线程 执行 。 
3. 并 行 工 作 共 享 的 组 合 构 造 
如 果 在 一 个 paralle1 命 令 后 跟随 单个 for 命 令 ， 则 可 将 它们 组 合成 


#pragma omp parallel for 
for_loop 


它 将 有 类 似 效 果 ， 即 每 个 进程 将 执行 相同 的 for 循 环 。 
如 果 一 个 parallel 命 令 后 跟随 单个 sections 命 令 ,， 则 可 将 它们 组 合成 
#pragma omp parallel sections { 、 
#pragma omp Section 
structured block 
#pragma omp section 
structured block 


} . 

它 将 有 类 似 效果 。( 在 上 述 两 种 情况 中 ， 都 不 允许 使 用 nowait 子 句 。) 
4. Master 命 令 ( 主 命令 ) 
master 命 今 


#pragma omp master 
structured block 


将 使 主线 程 执 行 结构 块 。 该 命令 与 工作 共享 组 中 的 不 同 ， 它 在 构造 的 末尾 处 没有 隐 含 的 障 
栅 〈 或 是 开始 处 ) 。 遇 到 该 命令 的 其 他 线程 将 不 会 理会 它 和 它 的 相应 的 结构 块 ， 而 是 继续 向 
前 执行 。 

5. 同步 构造 

在 这 一 分 类 中 有 五 个 构造 : critical、barrier、atomic、flush 和 ordered。 

(1) Critical (临界 ) critical 命 令 将 只 允许 一 个 线程 执行 相应 的 结构 块 。 当 一 个 或 
多 个 进程 到 达 critical 命 令 时 

#pragma omp critical name 

structured block 


它们 将 等 待 直 至 无 其 他 进程 在 执行 相同 的 临界 区 〈 即 具有 相同 名 字 )， 然 后 一 个 线程 将 前 行 去 
执行 该 结构 块 。name 是 可 选 的 。 无 名 的 所 有 临界 区 将 被 映射 到 一 个 未 定义 的 名 字 。 

(2) Barrier ( 障 栅 ) ” 当 一 个 线程 到 达 障 机 时 

#pragma omp barrier 


将 等 待 直至 所 有 其 他 线程 都 到 达 障 栅 ， 然 后 所 有 线程 一 起 向 前 。 在 程序 中 布置 障 机 命令 有 一 
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些 限制 。 特 别 是 所 有 线程 必须 能 到 达 障 李 。 
(3) Atomic (原子 ) ”原子 命令 


#pragma omp atomic 
expression_ statement 


可 用 来 高 效 地 实现 一 个 临界 区 ， 如 果 临 界 区 只 是 简单 地 更 新 一 个 变量 (加 1、 减 1 或 完成 某 些 
其 他 由 expression_statement 所 定义 的 简单 算术 操作 )。 在 处 理 器 中 常 有 高 效 的 原子 指 
令 来 完成 这 些 操作 。 当 然 ， 一 个 好 的 编译 器 ， 不 论 如 何 应 能 在 临界 区 中 发 现 原子 命令 。 算 术 
操作 在 expression statement 中 给 定 ， 它 必须 是 由 OpenMP 定 义 的 简单 形式 ( 见 附 录 C )。 

(4) Flush (刷新 ) 共享 对 象 最 初 存储 在 共享 存储 器 中 ， 当 它们 被 处 理 器 访问 时 就 会 被 
引入 局 部 存储 器 (处理 器 寄存 器 或 高 速 缓存 )。 刷 新 命令 是 一 个 同步 点 ， 该 点 将 使 存储 器 中 的 
某 些 或 所 有 变量 具有 “一 致 性 ”观察 ， 并 允许 所 有 当前 对 变量 的 读 和 写 操作 完成 且 将 值 写 回 
主 存储 器 ， 但 代码 中 任何 在 刷新 命令 后 的 存储 器 操作 均 不 能 开始 ， 从 而 就 构成 了 一 个 “存储 
器 篇 笛 (memory fence)。 刷 新 命令 的 格式 为 


#pragma omp fiush {variable_ list) 


刷新 命令 将 自动 地 出 现在 parallel 和 critical 命 令 (以 及 组 合 的 parallel for 和 
parallel sections 的 命令 中 ) 的 入 口 处 和 出 口 处 ， 且 出 现在 for、sections 及 single 
(如 果 没 有 nowait 子 句 ) 的 出 口 处。 注意 ， 它 不 会 出 现在 master 中 ,或 是 for、sections 及 
single 的 入 口 处 。 此 外 ， 它 只 适用 于 执行 刷新 命令 的 线程 ， 而 不 是 组 中 的 所 有 线程 ， 它 们 不 
会 自动 地 获得 一 致 性 的 存储 器 观察 。 要 做 到 这 一 点 ， 则 每 个 线程 都 必须 执行 一 条 刷新 命令 。 

(5) Ordered ( 按 序 ) ordered 命 令 与 for 及 parallel for 命 令 联合 在 一 起 使 用 ， 它 
将 使 迭代 按 顺 序 循环 方式 编写 所 呈现 的 次 序 加 以 执行 。 更 多 的 详细 内 容 请 参见 附录 C。 


8.6 性 能 问题 
8.6.1 共享 数据 的 访问 


即使 处 理 器 有 能 力 访问 共享 存储 器 中 的 任何 单元 ， 由 于 所 有 的 现代 计算 机 系统 中 都 有 高 
速 缓存 ， 它 们 是 一 些 高速 的 存储 器 ,非常 接近 地 连接 到 每 个 处 理 器 上 ， 因 此 ， 为 获取 最 好 的 
性 能 ， 尝 试 组 织 数据 仍 是 非常 重要 的 。 使 用 高 速 缓存 的 原因 是 因为 处 理 器 访问 存储 单元 的 速 
度 远 远 超过 主 存储 器 响应 的 速度 。 一 个 速度 更 高 、 容 量 较 小 的 高 速 缓存 能 更 好 地 与 处 理 器 的 
速度 相 匹 配 。 现 在 的 系统 甚至 拥有 多 于 一 级 的 高 速 缓存 : 一 个 小 容量 的 与 处 理 器 处 于 同一 芯 
片 内 的 一 级 高 速 缓存 〈L1)， 以 及 在 一 级 缓存 之 后 的 一 个 更 大 些 的 片 外 二 级 高 速 缓存 〈L2 ) 。 
此 外 其 至 可 以 有 一 个 共享 的 三 级 高 速 绥 存 (L3), 特别 在 对 称 共享 存储 器 多 处 理 机 (SMP) 中 。 
下 面 我 们 将 考虑 每 个 处 理 器 只 有 一 级 高 速 缓存 的 情况 。 . 

程序 由 可 执行 的 指令 (代码 ) 和 相应 的 数据 所 组 成 。 现 实情 况 中 ， 可 执行 指令 在 程序 执 
行 过 程 中 是 不 会 改变 的 。 相 反 ， 数 据 可 以 改变 ， 从 而 导致 系统 设计 的 显著 复杂 ， 并 将 对 总 体 
性 能 产生 很 大 影响 。 当 某 个 处 理 器 首次 访问 一 个 主 存储 器 单元 时 ， 该 内 容 的 一 个 拷贝 将 被 传 
送 到 处 理 圳 的 高 速 缓存 中 。 假 设 被 放 和 高速 缓 存 的 信息 是 数据 ， 则 当 这 个 处 理 器 此 后 再 访问 
该 数据 时 ， 它 可 以 直接 访问 高 速 缓存 。 如 果 另 一 个 处 理 器 此 后 也 访问 该 相同 的 主 存储 器 单元 
时 ， 则 同样 数据 的 另 一 拷贝 也 将 传送 到 与 该 处 理 器 相连 的 高 速 缓存 中 ， 因 此 ， 同 一 数据 就 有 
了 多 份 拷贝 。 这 并 不 成 问题 ， 但 当 某 个 处 理 器 改变 了 它 的 高 速 缓 存 中 的 拷贝 时 ， 也 就 是 它 要 
写 人 新 的 数据 值 时 ， 问 题 就 出 现 了 。 此 时 就 需要 使 用 高 速 缓存 一 致 协议 (cache coherence 
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protocol) 来 确保 后 继 处 理 器 引用 这 个 数据 时 ， 得 到 的 是 最 新 变动 过 的 数据 。 

高 速 缓存 一 致 性 协议 可 以 使 用 更 新 策略 ， 或 更 通常 的 是 使 用 使 无 效 策略 。 在 更 新 策略 中 ， 
当 数 据 在 高 速 缓存 中 的 某 个 拷贝 被 更 新 时 ， 这 个 数据 在 所 有 其 他 高 速 缓存 中 的 所 有 其 他 拷贝 
都 将 做 同样 的 变动 。 在 使 无 效 策略 中 ， 当 数据 的 某 个 拷贝 变动 时 ， 通 过 重 置 高 速 缓存 中 的 有 
效 位 ， 使 所 有 其 他 高 速 缓存 中 的 相同 数据 拷贝 都 变 为 无 效 。 当 一 个 处 理 器 试图 访问 一 个 无 效 
拷贝 时 ， 该 无 效 拷贝 就 将 被 更 新 。 现 在 有 各 种 不 同 版 本 的 高 速 缓存 一 致 性 协议 (更 多 细节 请 
参见 [Tomasevic and Milutinovic，1993] ) 。 程 序 员 可 以 假设 系统 中 已 经 存在 一 个 有 效 的 高 速 组 
存 一 致 协议 ， 而 这 将 对 系统 的 性 能 有 所 影响 。 

高 速 缓存 的 存在 意味 着 为 了 获取 更 高 的 性 能 我 们 应 该 对 所 使 用 的 并 行 算法 加 以 一 定 的 改 
变 。 关 键 的 特征 在 于 高 速 缓存 是 以 连续 单元 的 块 (也 称 为 行 ) 的 形式 组 成 的 。 当 处 理 器 首次 
引用 块 中 的 一 个 或 几 个 字 节 时 ， 整 个 块 就 会 从 主 存储 器 传送 到 高 速 缓存 中 。 因 此 ， 如 果 要 访 
问 该 数据 块 的 另 一 部 分 时 ， 它 已 在 高 速 缓存 中 而 不 必 从 主 存储 器 将 它 传送 到 高 速 缓存 。 如 果 
高 速 缓存 所 使 用 的 块 的 大 小 和 编译 器 存储 数据 的 方法 已 知 的 话 ， 并 行 算法 就 可 以 利用 高 速 组 
存 的 这 一 特征 。 当 然 ， 这 种 方法 将 使 性 能 高 度 依赖 于 执行 这 个 程序 所 使 用 的 实际 计算 机 系统 
的 情况 。 

在 高 速 缓存 中 使 用 块 的 原因 是 顺序 程序 的 一 个 基本 特征 是 存储 器 的 访问 趋向 于 在 以 前 存 
储 器 访问 的 附近 ， 即 所 谓 时间 局 部 性 (temporal locality )。 然 而 ， 不 同 处 理 器 所 需 的 访问 可 能 
是 一 个 高 速 缓 存 块 的 不 同 部 分 ， 而 不 是 块 主 存储 器 
中 的 那些 相同 字 节 。 尽 管 实际 数据 不 共享 ， 

但 如 果 一 个 处 理 器 对 该 块 的 一 部 分 进行 写 ， 

则 这 个 块 在 其 他 高 速 缓存 中 的 拷贝 就 必须 块 
全 部 进行 更 新 或 者 使 无 效 。 这 就 是 所 谓 的 
假 共 享 (false sharing )， 它 对 系统 的 性 能 有 
负面 的 影响 。 图 8-10 中 对 假 共 享 作 了 说 明 。 
在 图 8-10 中 ， 一 个 高 速 缓存 块 由 8 个 字 组 成 ， 
从 0 到 7。 两 个 处 理 器 访问 同一 块 中 的 不 同 
字 节 (处理 器 1 访问 字 3， 而 处 理 器 2 访问 字 
5)。 假 定 处 理 器 1 改写 了 字 3， 则 高 速 缓存 
一 致 协议 将 使 处 理 器 2 中 的 该 高 速 缓存 块 更 
新 或 使 其 无 效 ， 即 便 处 理 器 2 永远 也 不 访问 
字 3。 假 定 现在 处 理 器 2 又 改写 了 字 5， 则 现 
在 高 速 缓存 一 致 协议 反 过 来 又 要 将 使 处 理 
器 1 中 的 该 高 速 缓存 块 进行 更 新 或 使 其 无 1 图 8-10 高 速 缓存 中 的 假 共享 

效 ， 即 便 处 理 器 1 可 能 也 许 从 不 访问 字 5。 这 样 下 去 ， 就 会 不 幸 地 导致 造成 高 速 缓存 块 的 乒乓 
效应 (ping-ponging ) 。 

解决 这 一 问题 的 一 个 方法 是 让 编译 器 改变 共享 数据 在 主 存 中 存放 的 布局 ， 将 所 有 仅 由 一 
个 处 理 器 所 写 的 数据 分 布 到 不 同 的 块 中 。 当 然 ， 这 一 点 可 能 很 难 在 所 有 情况 中 满足 。 例 如 ， 
代码 

forall (i = 0; i < 5S; I++) 

a[lil = 0; 


很 可 能 产生 假 共 享 ， 因 为 a 的 元 素 a[0]、a[1]、a{2]、a[l3] 和 a[ 4] 通 常 在 主 存 中 会 被 存 
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放 在 连续 的 单元 中 。 避 免 假 共享 的 唯一 方法 就 是 将 每 个 元 素 放 在 不 同 的 块 中 ， 对 于 一 个 大 型 
数组 来 讲 这 将 导致 很 大 的 存储 空间 的 浪费 。 可 是 ， 即 使 是 如 下 的 代码 
rt 
0 
-0 
} | ， 
其 中 ，x 和 y 是 共享 变量 ， 仍 可 能 产生 假 共享 ， 因 为 变量 x 和 y 很 可 能 被 存放 在 同一 个 数据 段 中 。 
一 般 而 言 ， 程 序 员 需 要 将 它们 的 并 行 算法 作 如 下 的 处 理 ， 以 充分 利用 高 速 缓存 的 特征 并 
尽量 减少 假 共 享 ( 即 不 共享 的 数据 项 不 放 在 同一 块 中 )。 


8.6.2 共享 存储 器 的 同步 


同步 原 语 的 使 用 是 导致 共享 存储 器 程序 性 能 降低 的 主要 原因 。 在 共享 存储 器 程序 中 同步 
使 用 的 主要 目的 为 下 面 三 个 之 一 : 

“ 互 斥 同步 

“ 进程 /线程 同步 

“ 事件 同步 

互 斥 同步 用 来 控制 对 临界 区 的 访问 ， 且 可 用 加 锁 / 开 锁 (lock/unlock) 例 程 来 实现 。 高 性 
能 的 程序 应 尽 少 使 用 临界 区 ， 因 为 它们 的 使 用 将 使 代码 顺序 化 ， 如 图 8-11 所 说 明 的 那样 。 假 
设 如 通常 那样 ， 每 个 处 理 器 正 执行 一 个 进程 ， 且 所 有 处 理 器 正好 一 起 到 达 它 们 的 临界 区 。 这 
些 临 界 区 将 依次 执行 。 在 这 种 情况 下 ， 执 行 时 间 会 变 成 如 同一 个 单 处 理 器 的 执行 时 间 。 正 如 
[Pfister，1998] 所 指出 的 那样 ， 此 时 增加 处 理 器 数目 会 适得其反 。 例 如 ， 假 定 有 p 个 处 理 器 ， 
每 个 有 一 个 临界 区 ， 需 要 tnt 时 间 单 位 ， 而 在 临界 区 外 的 计算 需要 icomp 时 间 单 位 ， 且 这 两 部 分 
重复 。 当 tomp<ptm 时 ， 处 于 活动 的 处 理 器 数 有 了 时 将 小 于 p ( 见 图 8-11 )。 





进程 1 进程 2 进程 3 
| | | 
1 1 1 
1 1 i 
! 1 1 
上 上 1 
lock () lock () lock () 
上 上 
| 1 
临界 区 
tm ! 等 待 
1 
| Uniock () ! ! 
1 I 
1 
' 临界 区 | 等 等 
| | 
1 ! 
Lcomp | Unlock () 1 
i t 
1 1 
临界 区 
1 | 
Unlock () 
' | | 
lock () ! | 
下 一 个 临界 区 


图 8-11 临界 区 序列 化 代码 
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如 我 们 所 知道 的 那样 ， 在 消息 传递 程序 和 共享 存储 器 程序 中 都 使 用 障 栅 ， 但 障 机 有 时 会 
导致 处 理 器 不 必要 的 等 待 。 例 如 ， 可 将 某 些 同步 算法 修改 成 异步 的 或 是 部 分 同步 的 〈 关 于 部 
分 同步 在 第 6 章 的 末尾 已 做 了 描述 )， 此 时 只 需 使 用 较 少 的 障 栅 ， 这 将 显著 减 小 执行 时 间 。 

事件 同步 是 指 当 在 一 个 进程 /线程 中 某 一 条 件 或 某 一 值 出 现时 ， 用 信号 去 通知 另 一 个 进程 / 
线程 。 事 件 同 步 可 用 如 下 代码 加 以 实现 


Process 1 Process 2 


data = new; 
flag = TRUE; : 

: while {flag != TRUE) { }:; 
data_copy = data; 


其 中 ， 进 程 2 被 告知 数据 已 被 进程 1 更 新 。 而 flag 是 一 个 共享 变量 ,但 不 一 定 要 将 它 限制 在 临 
界 区 中 加 以 访问 。 如 [Culler and Singh，1999] 所 提 及 的 ， 与 其 使 用 一 个 独立 的 flag 变 量 ， 不 如 
使 用 数据 变量 本 身 : 


Process 1 Process 2 


data = new; 


while (data != new) { }; 
data copy = data; 


尽管 该 代码 的 可 读 性 变 差 ， 而 且 还 不 得 不 特别 小 心地 研究 可 能 性 和 隐 含 性 。 这 里 的 一 种 假设 
是 ，data 在 被 进程 1 设置 成 new 之 前 ， 不 可 能 等 于 new， 即 使 发 生 了 也 没有 关系 。 另 一 种 假设 
是 ， 每 个 进程 中 的 那些 语句 是 按 程序 中 给 定 的 次 序 执行 的 。 最 后 ， 高 速 缓存 的 存在 是 一 个 很 
关键 的 因素 。 保 留 在 高 速 缓存 的 那些 值 可 能 未 被 更 新 ， 除 非 高 速 缓存 将 其 显 式 地 加 以 更 新 。 
在 下 一 人 小节， 我 们 将 进一步 探讨 程序 顺序 和 存储 器 操作 。 


8.6.3 顺序 一 致 性 


在 任何 的 (MIMD ) 多 处 理 机 系统 中 ， 每 个 处 理 器 将 执行 保存 在 本 地 存储 器 中 自己 的 程 
序 ， 因 此 在 同时 将 有 多 于 一 个 的 程序 执行 。 术 语 顺 序 一 致 性 (sequential consistency) 指 的 是 
这 些 程序 执行 的 最 终结 果 将 是 相同 的 ， 而 与 各 个 程序 的 时 间 关 系 无 关 。 即 在 任何 时 间 点 ， 每 
个 程序 的 各 条 指令 执行 的 实际 进展 可 以 不 同 ， 且 可 以 任何 次 序 相 互 交 叉 。 唯 一 的 约束 是 每 个 
程序 中 的 指令 需 按 程序 次 序 执行 。 由 [Lamport，1979] 形 式 化 定义 的 顺序 一 致 性 为 : 

一 台 多 处 理 机 是 顺序 一 致 的 ， 如 果 任 何 执行 的 结果 都 尤 如 所 有 处 理 器 的 操作 按 某 种 程序 

次 序 执行 的 一 样 ， 且 每 个 处 理 器 的 操作 顺序 是 按 它 的 程序 所 说 明 的 次 序 进行 的 。 

也 就 是 说 ， 不 管 指令 的 执行 在 时 间 上 以 何 种 方式 交叉 ， 一 个 并 行程 序 的 整体 执行 效果 并 没有 
发 生变 化 。 

保证 程序 最 终结 果 正 确 的 关键 所 在 是 处 理 器 对 存储 器 单元 访问 请 求 的 次 序 。 对 于 一 个 具有 
顺序 一 致 性 的 系统 而 言 ， 它 必须 仍 产生 程序 设计 时 所 希望 得 到 的 结果 ， 即 使 来 自 不 同 处 理 器 
的 各 个 访问 请 求 可 以 任何 次 序 交 又 。 这 一 情景 可 如 图 8-12 所 示 来 加 以 描述 。 显 然 ， 在 图 8-12 中 
如 果 一 个 处 理 器 去 读 一 个 共享 变量 x， 它 通常 需要 的 是 该 变量 的 最 新 值 。 顺 序 一 致 性 将 在 定时 
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变化 范围 内 提供 此 值 ， 而 这 种 定时 变化 在 程序 执行 时 就 可 能 出 现 。 
处 理 器 (程序 ) 


时 间 








图 8-12 顺序 一 致 系统 


当 为 一 个 已 知 是 顺序 一 致 系统 编写 一 个 并 行程 序 时 ， 我 们 就 能 推断 程序 的 执行 结果 。 在 
8.6.2 节 中 所 给 定 的 代码 序列 中 


Process 1 Process 2 


data = new; 
flag = TRUE; : 

: while (flag != TRUE) { }; 
data_copy = data; 


我 们 将 期 待 data_copy 会 被 设置 为 ew， 因为 我 们 期 待 语句 data = new 会 在 语句 flag = TRUE 
之 前 执行 ， 而 语句 while (flag! = TRUE){1} 会 在 data_copy = data 之 前 执行 [Hill， 
1998]。 在 顺序 一 致 系统 中 使 用 该 代码 序列 可 保证 一 个 进程 ( 例 中 为 进程 2) 从 另 一 个 进程 
( 例 中 为 进程 1) 读 得 的 值 确 是 新 值 。 进 程 2 只 需 简单 地 等 待 新 值 的 产生 。 

1. 程序 顺序 

Lamport 关 于 顺序 一 致 性 的 定义 是 “每 个 处 理 器 的 操作 顺序 是 按 它 的 程序 所 指定 的 次 序 ” 
或 程序 火 序 。 在 图 8-12 中 ， 该 次 序 即 是 要 被 执行 的 、 已 存储 的 机 器 指令 的 次 序 。 然 而 ， 如 果 
允许 编译 器 为 改善 性 能 对 语句 次 序 重新 排序 ， 则 已 存 机 器 指令 的 次 序 就 可 能 与 相应 的 源 程序 
”中 高 级 语言 语句 的 次 序 不 一 样 。 在 这 种 情况 下 ， 前 面 的 例子 可 能 失败 。 

即使 不 允许 编译 器 对 代码 次 序 进行 重 排 ， 在 现代 的 高 性 能 处 理 器 中 机 器 指令 的 执行 次 序 
也 不 是 必须 与 存储 器 中 机 器 指令 的 次 序 相 同 ， 因 为 现代 的 处 理 器 为 了 增强 性 能 在 执行 时 通常 
会 在 内 部 重 排 机 器 指令 的 次 序 。 然 而 ， 一 个 处 理 器 可 能 不 按 程 序 次 序 执行 机 器 指令 的 这 一 事 
实 ， 并 不 会 改变 多 处 理 机 的 顺序 一 致 性 ， 如 果 处 理 器 所 产生 的 最 后 结果 与 按 程序 次 序 执行 的 
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结果 一 样 的 话 ; 也 就 是 说 按 程序 次 序 将 值 收回 到 寄存 器 和 存储 器 单元 ， 通 常 处 理 器 用 这 种 方 
法 来 保持 顺序 一 致 性 。 
作为 处 理 器 重新 排序 的 一 个 例子 ， 假定 前 面 例子 中 的 新 数据 的 计算 按 下 式 进行 


Process 1 Process 2 


new =a* Db; 
Gata = new; 
flag = TRUE; 机 

: while (flag != TRUE) { }; 
data_copy = data; 


在 new = a * b 中 的 乘法 操作 相当 于 可 执 和 行程 序 中 的 乘法 机 器 指令 。 而 下 一 条 与 其 相关 的 指令 
data = new 必 须 在 乘法 指令 完成 后 并 生成 其 结果 才 可 发 动 再 下 一 条 指令 flag = TRUE 则 完全 
是 独立 的 ， 一 台 聪 明 的 处 理 器 不 会 追随 顺序 一 致 性 ， 它 会 在 乘法 结束 之 前 就 启动 这 一 操作 
(事实 上 确 是 这 样 ) ， 这 将 导致 如 下 序列 : 


Process 1 Process 2 


new =a* Db; 
fliag = TRUE; 


Gata = new; 


while (flag != TRUE) { }; 
Gata_copy = data; 


现在 ，while 语 句 若 在 new 赋 值 给 data 之 前 出 现 ， 将 导致 出 错 。 

所 有 多 处 理 机 具有 在 顺序 一 一 致 性 模型 下 运行 的 选项 ， 即 强 迫 指令 按 程序 次 序 存放 它们 的 
结果 。 可 以 使 用 一 种 显 式 的 存储 器 篇 管 ， 例 如 ， 在 OpenMP 中 使 用 flush 命 令 。 但 是 ， 这 将 显 
著 限 制 编译 器 的 优化 和 处 理 器 的 性 能 。( 这 一 结论 已 被 [Hill，1998] 质 疑 。) 

2. 松弛 的 读 / 写 次 序 

可 为 处 理 器 提供 相应 的 设施 ， 以 允许 它们 松弛 相对 于 另 一 处 理 器 的 读 、 写 次 序 的 一 致 性 。 
例如 ， 术 语 处 理 器 一 致 性 (processor consistency) 描述 了 这 样 一 种 情景 ， 即 各 个 处 理 器 的 号 
按 程 序 次 序 ， 但 不 同 处 理 器 的 交叉 写 可 以 按 不 同 的 次 序 。 这 种 松弛 将 为 改善 性 能 提供 一 些 机 
会 (通过 缓存 和 重 排 指令 加 以 实现 )。 

为 支持 通用 的 松弛 读 和 写 的 次 序 ， 已 提供 了 各 种 称 为 存储 器 篇 爸 (memory fence) 或 存 
储 器 障 柚 (memory barrier) 的 专用 机 器 指令 ， 当 程序 中 需要 时 就 用 来 同步 存储 器 操作 。 例 如 ， 
Alpha 处 理 器 有 一 条 存储 器 障 机 指令， 它 会 在 发 动 任何 新 的 存储 器 操作 前 ， 等 待 所 有 以 前 发 动 
的 存储 器 访问 指令 的 执行 结束 。 它 还 有 一 条 写 存储 器 障 栅 指 令 ， 其 功能 类 似 于 存储 器 障 栅 指 
令 ， 但 只 考虑 存储 器 的 写 操 作 。SUN Sparc V9 处 理 器 有 一 条 存储 器 障 机 指令 ， 并 设 有 4 位 供 变 
化 之 用 。 在 该 存储 器 障 栅 指令 之 前 的 所 有 写 操 作 未 完成 之 前 ， write-to-read 位 将 防止 在 其 后 的 
任何 读 操 作 的 发 动 。 其 他 位 为 write-to-write、read-to-read 以 及 read-to-write。IBM PowerPC 处 

理 器 有 一 条 sync 指 令 ， 它 类 似 于 Alpha 的 存储 器 障 栅 指 令 。， 
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8.7 程序 举例 


在 本 节 中 ， 我 们 将 通过 编写 使 用 多 个 进程 /线程 对 数组 a[ 1000 ] 的 元 素 求 和 的 简单 程序 来 
演示 UNIX 系 统 调用 、Pthread 和 Java 的 用 法 : 


int sum, a[1000]; 
sum = 0; 
for (i = 0; i < 1000; i++) 
sum = sum + alil]; 


当然 ， 我 们 通常 不 会 使 用 UNIX 重 量 级 进程 来 解决 这 一 问题 ， 但 这 样 做 可 以 展示 一 下 使 用 
临界 区 的 技术 。 对 于 使 用 UNIX 进 程 的 例子 来 说 ， 将 静态 分 配 任务 ， 而 对 于 使 用 Pthread 和 Java 
的 例子 来 说 , 我 们 将 使 用 动态 负载 平衡 方法 来 负责 任务 的 分 配 。 对 于 UNIX 进 程 和 Pthread 线 程 ， 
必须 使 用 临界 区 来 保护 对 共享 变量 的 访问 。Java 则 使 用 监控 程序 方法 。 


8.7.1 使 用 UNIX 进 程 的 举例 
这 个 例子 中 ， 所 有 的 计算 将 被 分 割 成 两 部 分 ， 奇 数 ; 部 分 和 偶数 i 部分， 即 


进程 1 进程 2 
suml = 0; Sum2 = 0; 
for (i = 0; i < 1000; i = i + 2) for {i = 1; i < 1000; i = i + 2) 
suml = suml + al[lil]; sum2 = Sum2 + al[lil]; 
每 个 进程 都 将 把 自己 的 结果 (suml 或 者 sum2 ) 加 到 累加 结果 sum 中 (在 sum 被 初始 化 后 ) ， 
得 到 最 后 结果 : 
Sum = sum + suml; sum = sum + sum2; 


存放 最 后 结果 sum 的 存储 器 单元 应 该 是 由 两 个 进程 共享 的 ， 并 且 由 锁 机 制 来 保护 访问 。 在 这 
个 程序 中 ， 我 们 创建 了 一 个 共享 数据 结构 ， 如 图 8-13 所 示 。 仅 有 一 个 进程 访问 数组 af ] 的 特定 
元 素 ， 并 且 在 任何 情况 下 访问 仅仅 是 读 访 问 ， 所 以 对 数组 a[ ] 的 访问 就 无 需 保 护 。 但 是 每 个 
进程 都 可 改变 sum， 因 此 对 sum 的 操作 必须 在 一 个 临界 区 内 进行 。 我 们 使 用 了 一 个 二 元 信号 量 
来 实现 这 个 临界 区 。 


Sum 


数组 af] 
| 上- 一 


图 8-13 8.7.1 节 程序 举例 中 使 用 的 共享 存储 器 单元 


#include <sys/types.h> 
#include <sys/ipc.h> 

#include <sys/shm.h> 

#incjude <sys/sem.h> 

#include <stdio.h> 

#include <errno.h> 

#define array_size 1000 /* no of elements in shared memory */ 
extern char *shmat(); 

void P(int *s); 

void V(int *s); 

int main() { 


ktD 
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int shmid, s, pid; /* shared memory, semaphore, proc igd */ 
char *shm; /*shared mem. addr returned by shmat ()*/ 
int *a, *addr, *sum; /* shared data variables*/ 

int partial_sum; /* partial sum of each process */ 

int i; 


/* initialize semaphore set */ 
int init_sem value = 1; 
s = semget (IPC_ PRIVATE, 1, (0600 | IPC_CREAT)) 
if (s == -1) { /* if unsuccessful*/ 
perror ("semget"); 
exit (1); 


} 
if (semctl(s, 0, SEIVAL, init_sem value) < 0) ( 


perror ("semctl1"); 
exit (1); 


/* create segment*/ 
shmid = shmget (IPC_PRIVATE, (array. size*sizeof (int)+1), 
(IPC_CREAT|0600)); 


if (shmid == -1) { 
perror ("shmget"); 
exit(1); 


/* map segment to process data space */ 


shm = shmat (shmid, NULL, 0); 
/* returns address as a character*/ 


if {shm == (char*)-1) { 
perror ("shmat"); 
exit(1); 
} 
addr = (int*)shm; /* starting address */ 
sum = addr; /* accunmulating sum */ 
addr++; 
a = addr; /* array of numbers, a[] */ 
*sum = 0; 
for (i = 0; i < array_size; i++) /* load array with numbers */ 
*(a + 1) = i+l; 
pid = fork(); /* create child process */ 
if (pid == 0) { - /* chiid does this */ 


partial_sum = 0; 
for (i = 0; i < array size; i = i + 2) 
partial_ sum += *{a + i); 
else { /* parent does this */ 
partial sum = 0; 
for (i = 1; i < array size; i = i + 2) 
partial sum += *(a + i); 
} 
P(&S) ; /* for each process, add partial sum */ 
*Sum += partial _sum; 
V(&Ss); 


printf ("\nprocess pid = %d, partial sum = %d\n", pid, partial sum); 
if (pid == 0) exit(0); else wait(0); /* terminate child proc */ 
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printf("\nThe sum of 1 to %i is %d\n", array_ size, *sum); 


/* remove semaphore */ 
if (semctl(s, 0, IPC_RMID, 1) == -1) { 
perror ("semctil"); 
exit(1); 


/* remove shared memory */ 
if (shmcti{(shmid, IPC RMID, NULL) == -1) { 
perror ("shmctl1"); 
exit(1); 


exit (0); 
} /* end of main */ 


void Pl(int *s) { /* Pl(s) routine*/ 
struct sembuf sembuffer, *sops; 
‘sops = &sembuffer; 
sops->sem num = 0; 
Sops->sem op = -1; 
sops->sem_flg = 0; 
if (semop(*s, sops, 1) < 0) { 
perror ("semop"); 
exit (1) 7 
} 


return; 


void V(int *s) { /* V(s) routine */ 
struct sembuf sembuffer, *sops; 
sops = &sembuffer; 
sops->sem num = 0; 
Sops->sem op = 1; 
sops->sem,_flg = 0; 
if {semop(*s, sops, 1) <0) { 
perror ("semop"); 
exit (1); 
} 


return; 


SAMPLE OUTPUT 


process pid = 0, partial sum = 250000 
process pid = 26127, partial sum = 250500 
The sum of 1 to 1000 is 500500 


8.7.2 使 用 Pthread 的 举例 


本 例 中 ， 我 们 将 创建 hum_thread 个 线程 ， 每 个 线程 都 将 从 列表 中 获取 数 并 加 到 它们 的 
和 中 。 当 所 有 的 数 都 被 取 走 后 ， 这 些 线程 就 将 它 的 部 分 和 加 到 共享 单元 sum 中 。 在 本 程序 中 ， 
可 按照 图 8-14 所 示 的 结构 创建 共享 的 数据 结构 。 各 个 线程 通过 共享 单元 91obal_index 获 取 
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a[ ] 数 组 的 下 一 个 未 加 元 素 。 在 这 个 index 所 指 的 数组 元 素 被 读 后 ，index 就 会 加 1， 从 而 指 
向 下 一 个 未 加 元 素 ， 为 下 一 次 元 素 的 获取 做 好 准备 。 如 上 例 一 样 ， 结 果 所 在 的 主 存单 元 将 是 
sum， 并 将 同样 被 共享 且 使 用 锁 机 制 来 保护 对 其 的 访问 。 


global index sum 








: 


图 8-14 8.7.2 节 程序 举例 中 使 用 的 共享 存储 器 单元 


有 一 点 非常 重要 ， 那 就 是 不 能 在 临界 区 外 访问 全 局 索引 下 标 global_index。 这 包括 我 
们 察看 索引 下 标 是 否 达到 最 大 值 的 操作 。 如 下 语句 : 
while (global index < array_size) ... 
需要 访问 global_index， 在 while 的 语句 体 被 执行 之 前 ， 这 个 索引 下 标 可 能 被 其 他 的 线程 改 
变 。 在 本 代码 中 ,使 用 一 个 局 部 变量 ，local_index 来 存放 当前 读 到 的 global_index 的 值 ， 
以 便 更 新 部 分 和 以 及 检查 下 标 是 否 达 到 了 最 大 值 。 
在 本 代码 中 ,我们 使 用 了 互 斥 锁 机 制 ， 而 没有 使 用 条 件 变量 。 使 用 该 方法 的 程序 如 下 : 
#include <stdio.h> 
#include <pthread.h> 
#define array_size 1000 


#define num threads 10 , 
/* shared data */ 


int alarray_ sizel]; /* array of numbers to sum */ 

int global index = 0; /* global index */ 

int sum = 0; . /* final result, also used by slaves */ 
pthread mtex t mtexl; /* mtually exclusive lock variable */ 


void *slave(void *ignored) { /* Slave threads */ 
int local_index, partial sum = 0; 
Gof 
pthread mutex lock (&mutex1) ; /* get next index into the array */ 
| local_index = global_ index;/* read current index & save locally*/ 
global_index+t++; /* increment global index */ 
pthread mtex unlock (gmutexl); 


if (local_index < array_size) 
partial sum += *(a + local index); 


} while (local_index < array size); 


pthread mtex_ lock(&mutexl); /* add partial sum to global sum */ 
sum += partial_sum; - 
PthreadQ_rutex_unlock (&mutexl); 


return () /* Thread exits */ 
} 


min () { 
int 1; 
pthread t thread{num threads]; /* threads */ 
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pthread mtex init (&mutexl ,NULL); /* initialize mutex */ 

for (i = 0; i < array size; i++) /* initialize aa[] */ 
a[li] = i+1l; 

for (i = 0; i < num threads; i++) -/* create threaGs */ 
if (pthread create(&thread[i], NULL, slave, NULL) != 0) 


perror ("Pthread create fails"); 


for {i = 0; i < num threads; i++) /* join threads */ 
if (pthread join(thread{i]l, NULL) != 0) 
perror ("Pthread join fails"); 


printf{"The sum of 1 to %i is %d\n", array_size, sum); 
} /* end of main */ 


SAMPLE OUTPUT 
The sum of 1 to 1000 is 500500 


习题 8-14 中 探讨 了 一 种 从 线程 一 次 取得 多 至 10 个 的 连续 放置 的 数 以 组 为 单位 进行 求 和 的 
方法 ， 由 于 减少 了 读 取 索引 下 标的 次 数 ， 因 此 这 是 一 个 更 高 效 的 方法 。 因 为 这 些 线程 都 无 返 
回 值 ， 所 以 可 使 它们 成 为 分 离线 程 。 


8.7.3 使 用 Java 的 举例 


下 面 的 代码 就 是 这 个 求 和 问题 的 一 个 简单 的 Java 实 现 。 这 个 程序 是 由 北 卡 罗 来 纳 大 学 夏 
洛 特 分 校 (UNCC) 的 学 生 PShah 所 编写 的 ， 用 于 演示 Java 的 监控 程序 方法 。( 我 们 应 该 指出 ， 
依赖 于 Java 的 实现 ， 一 个 线程 可 以 承担 所 有 的 工作 。) 


public class Adder { 
public int[] array; 
private int sum = 0; 
private int index = 0; 
private int number_ of threads = 10; 
private int threads_ quit; 


public Adder() { 
threads_ quit = 0; 
array = new int{1000]; 
initializeArray(); 
startThreads ()，; 


public synchronized int getNextIndex() { 
if(index < 1000) return (index++)}; else return (~-1); 


En 


Public synchronized void addPartialSum(int partial sum) { 
sum = sum + partial_sum; 
if{(++threads _ quit == number_of_ threads) 
System.out .println("The sum of the numbers is " + Sum); 


Private void initializeArray() { 
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int i; 
for(i = 0;i < 1000;i++) array[i] = i; 


} 


public void startThreads() { 
int i = 0; 
for(i = 0;i < 10;i++) { 
AdderThread at = new AdderThread (this,i); 
at.start(); 


public static void main(String args[]) { 
Adder a = new Adder(); 


class AdderThread extends Thread { 
int partial_ sum = 0; 
Adder parent; 
int number; 
public AdderThread (Adder parent, int number) { 
this.parent = parent; 
this.number = number; 


public void run() { 
int index = 0; 
while(index != -1) { 
partial. sum = partial sum + parent .array[index}]; 
index = parent .getNextIndex(); 


} 
System.out .println("Partial sum from thread " + number + " is " 


+ partial_sum); 
parent .addPartialSum(partial sum); 


8.8 小 结 


本 章 介 绍 了 以 下 内 容 : 

。 进 程 的 创建 

* 线程 的 概念 和 线程 的 创建 
。Pthread 规 范 的 例 程 

。 数 据 如 何 创建 为 共享 数据 
* 共享 数据 访问 的 控制 方法 
。 条 件 变量 的 概念 

。 并 行程 序 设计 语言 结构 
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*。 OpenMP 

。 使 用 Bernstein 条 件 来 进行 相关 性 分 析 
“影响 系统 性 能 的 因素 (同步 ， 高 速 缓存 ) 
*。 代码 举例 


推荐 读物 


现在 有 许多 关于 并 行程 序 设计 语言 的 文献 ， 著 名 的 参考 文献 包括 基于 FORTRAN 的 一 些 早 
期 语言 的 [Karp and Babb，1988] 和 基于 C++ 语言 的 [Wilson and Lu，1996]。[Skillicorn and 
Tabia，1995] 提 供 了 那些 重要 文献 的 再 印 版 。[Brawer，1989] 的 教科 书 中 盖 述 了 基于 UNIX 系 
统 调用 的 并 行程 序 设计 方法 。 不 过 ， 我 们 需要 指出 的 是 ， 在 很 多 实际 的 并 行程 序 设计 环境 中 
没有 使 用 这 种 UNIX 进 程 的 方法 是 因为 创建 UNIX 进 程 的 代价 太 大 了 。Pthread 规 范 和 多 线程 程 
序 设 计 则 在 许多 书 中 有 所 描述 ， 著 名 的 有 [KJleiman ，Shah and Smaalders，1996]、[Butenhof ， 
1997]、[Nichols，Buttlar and Farrell ，1996] 和 [Prasad ，1997] 。 

[Chandra et al.，2001] 描 述 了 OpenMP。 有 关 OpenMP 的 权威 原始 资料 出 自 http: 
//www.OpenMP.org 的 体系 结构 评审 委员 会 (2002 ) 。 

使 用 Java 进 行 共享 存储 器 程序 设计 也 是 进一步 研究 的 方向 。 对 一 个 Java 初 学 者 来 说 比较 不 
错 的 网 站 是 http:Wiava.sun.com/。 大 多 数 人 门 的 Java 书 籍 不 涉及 线程 或 同步 ， 但 有 关 信 息 可 在 
[Campione ，Walrath, and Huml，2001] 中 找到 。 更 专业 的 书籍 包括 [Lewis and Berg ，2000] 。 
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习题 


许多 在 其 他 章 习题 部 分 的 “科学 /数值 习题 ”和 “现实 生活 习题 ” 中 出 现 的 程序 设计 题 ， 


可 作为 程序 设计 作业 用 Pthread 和 OpenMP 实 现 。 本 章 的 部 分 习题 特 为 线程 和 OpenMP 设 计 。 


科学 /数值 习题 


8-1 
8-2 


8-3 


8-4 


如 果 有 两 个 进程 ， 每 个 进程 都 有 三 条 指令 ， 请 列 出 这 些 指令 的 各 种 可 能 顺序 。 
8.3.2 节 中 给 出 了 两 个 “action” 例 程 等 待 “counter“ 例 程 将 计数 器 减 到 0 的 例子 ， 请 使 用 
Pthread 规 范 的 条 件 变量 编写 实现 此 例 的 代码 。 

指出 下 列 代码 要 完成 什么 动作 ? 

forall (i = 0; i < ny i++) { 


a[li] = a[li + nl}; 


} 
分 析 8.4.3 节 中 给 出 的 如 下 代码 ， 是 否 体 中 任何 实例 都 可 以 同时 执行 
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forall (i = 2; i < 6; i++) { 
X= i- 2*i + ix*i; 
a[lil] = a[x]; 

} 

8-5 能 否 将 下 列 代码 : 

for (i = 0; i < 4; i++) { 
a[lil] = ali + 2]， 

} 

改写 成 : 
forall (i = 0; i < 4; I++) { 


afil = ali + 2]; 


} 


而 仍 能 获得 正确 的 结果 ? 请 解释 原因 。 
8-6 试 解释 下 列 的 每 个 程序 段 为 何不 能 工作 ， 并 重 写 每 个 实例 的 代码 使 在 给 定 n = 100 和 11 
个 处 理 器 时 能 够 工作 。 
(a) 对 数组 a 中 的 每 个 元 素 加 常数 5: 
for (i = 1;i <= n; I++) 
FORK alil = a{fi] + 5; 
(b) 计算 数组 a 中 所 有 元 素 的 和 : 
forall (i = 1;i <= n; i++) 
sum = sum + al[lil]; 
8-7 列 出 下 列 代码 执行 时 的 所 有 可 能 输出 : 
zx 0 
forall (i = 1; i <= 2; i++) { 
j=j+ 10; 
k= Kk+ 100; 
DintE (rig jt i ii 
假定 每 个 赋值 语句 是 原子 性 的 。( 提 示 : 将 赋值 语句 编号 ， 然 后 找 出 每 一 种 可 能 序列 。) 
8-8 ”假设 下 面 的 类 C 并 行 代码 用 于 将 一 个 矩阵 转 置 : 
forall (i = 0; i < n; i++) 
forall (j = 0; j < n; j++) 
a[li][j}] = a[j] [il; 
请 指出 为 什么 这 些 代 码 并 不 能 实现 上 述 功能 ， 请 重 写 代 码 使 其 能 够 达到 设计 目的 。 

8-9 如 在 8.3.2 节 末尾 所 提 及 的 ， 基 本 的 Pthread (POSIX.1 标 准 ) 不 具有 内 在 的 障 栅 。 书 写 一 
个 障 栅 例 程 并 加 以 测试 ， 其 中 应 包括 创建 和 初始 化 任何 必需 的 数据 结构 (共享 变量 、 互 
斥 锁 、 条 件 变 量 ) 例 程 以 及 撤销 数据 结构 的 例 程 。 

8-10 基本 的 Pthread (POSIX.1 标 准 ) 不 具有 内 部 的 读 / 写 锁 。 读 / 写 锁 是 区 分 读 访 问 和 写 访问 
的 一 种 锁 的 形式 ， 它 允许 多 于 一 个 的 线程 读数 据 ， 但 只 允许 一 个 进程 改变 它 。 当 一 个 
线程 设置 一 个 读 / 写 锁 时 要 指明 该 锁 是 (共享 ) 读 访问 锁 还 是 ( 互 斥 ) 写 访问 锁 。 如 果 
另 一 个 线程 进行 写 访问 ， 则 就 不 允许 该 线程 继续 进行 ， 反 之 就 允许 进行 。 当 多 个 线程 
正 等 待 一 个 读 / 写 锁 时 ， 就 需要 建立 一 个 先后 次 序 : 不 是 读 访 问 优先 于 写 访问 就 是 写 访 
问 优 先 于 读 访 问 。 如 果 是 前 者 ， 则 能 尽快 进行 多 个 同时 读 访 问 ; 如 果 是 后 者 则 能 尽快 


> 
ee | 
上 
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8-11 


8-12 


8-16 


8-17 


8-18 


8-19 
8-20 


8-21 
8-22 


及 一 部 分 藉 林 挝 大 . 


进行 更 新 数据 。 用 Pthread 实 现 这 样 一 个 读 / 写 锁 。 
假设 下 面 的 类 C 并 行 例 程 用 于 将 前 "个 数 求 和 : 
int summation (int n); 
{ 
int sum = 0; 
forall (i = 1; i <= n; i++) 
Sum = Sum + i; 
return (sum); 
} 
为 什么 上 述 例 程 其 实 不 能 完成 这 个 功能 ”并 请 重 写 代码 使 其 能 够 在 51 个 处 理 器 上 完成 
n = 200 的 计算 。 
请 确认 并 解释 下 面 的 障 栅 代码 是 如 何 工作 的 〈 基 于 6.1.3 节 给 出 的 两 阶段 障 栅 ): 
void barrier(} 
{ 
lock (arrival}); 
Count++; 
if (count < n) unlock (arrival) 
else unlock (departure); 
lock (departure); 
count——; 
if (count > 0) unlock (departure) 
else unlock (arrival); 


return; 
} 


为 什么 必须 使 用 两 个 锁 变 量 ，arrival 和 departure? 
编写 一 个 使 用 Pthread 或 OpenMP 的 程序 以 实现 4.2.2 节 中 所 述 的 数值 积分 ， 并 使 用 不 同 
的 分 解 方 法 (矩形 方法 和 梯形 方法 ) 进行 比较 。 
重 写 8.7.2 节 中 的 Pthread 例 子 ， 使 得 各 个 从 进程 可 以 一 次 最 多 提取 10 个 连续 的 数 ， 以 组 
为 单位 进行 求 和 ， 从 而 减少 对 索引 下 标的 访问 。 
条 件 变 量 可 以 用 来 检查 分 布 式 终止 。 请 用 第 7 章 中 描述 的 有 分 布 式 终止 的 负载 平衡 的 程 
序 中 使 用 条 件 变量 。 
编写 一 个 拥有 两 个 线程 的 多 线程 程序 ， 其 中 一 个 文件 被 一 个 线程 读 和 人 缓冲 区 ， 而 被 另 
一 个 线程 写 到 另 一 个 文件 中 。 
编写 一 个 Pthread 或 OpenMP 程 序 来 求解 二 次 方程 ax? + bx +c= 0 的 根 。 使 用 下 面 的 公式 : 
-b+Vb’ -4ac 

2a 
其 中 中 间 值 用 不 同 的 线程 计算 ， 并 使 用 条 件 变 量 来 识别 何 时 所 有 的 线程 都 完成 了 它 的 
计算 。 
如 果 三 个 进程 同时 到 达 它 们 的 临界 区 且 每 个 临界 区 需要 tk 秒 ， 则 进程 等 待 进 入 临界 区 的 
所 花费 的 总 时 间 为 多 少 ? 
用 OpenMP 重 写 习题 8-3 中 的 代码 。 、 
选择 在 其 他 章 中 的 一 个 科学 /数值 习题 ， 并 使 用 Pthread 和 MPI 进 行 比较 研究 。 测 量 每 一 
种 情况 下 的 执行 时 间 。 再 用 顺序 方法 实现 ， 并 测量 此 时 所 需 的 执行 时 间 。 
重 做 习题 8-20 但 比较 OpenMP 和 MPI 的 实现 。 
重 做 习题 8-20 但 比较 Pthread 和 OpenMP 的 实现 。 


计 二 
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8-23 


8-24 


8-25 


8-31 


8-32 


编写 一 个 多 线程 程序 来 模拟 两 个 人 使 用 两 个 自动 取款 机 来 访问 同一 个 共享 账号 的 情况 ， 
并 扩展 程序 以 允许 自动 借方 出 现 。 

编写 一 个 多 线程 程序 来 实现 航空 公司 的 机 票 预 订 系统 ， 使 其 能 够 应 付 多 个 旅行 社 访问 
同一 个 空余 机 票 源 (存放 在 共享 存储 器 中 ) 的 情况 。 

编写 一 个 多 线程 程序 来 实现 医疗 信息 系统 ， 使 其 能 够 被 多 个 试图 检索 和 更 新 (有 时 是 
增加 ) 共享 存储 器 中 存储 的 病人 病历 的 医生 访问 。 

编写 一 个 多 线程 的 程序 来 实现 一 个 售票 系统 ， 来 售卖 摇滚 乐队 “紫色 母亲 ”的 下 一 场 
将 在 北 卡罗来纳 州 夏 洛 特 城 的 Ericsson 体 育 场 举 行 的 音乐 会 。 

编写 一 个 多 线程 程序 来 模拟 一 个 计算 机 网 络 ， 在 这 个 网 络 中 各 个 工作 站 和 一 个 主 服务 
器 通过 单个 以 太 网 连接 ， 并 以 随机 的 间隔 互相 传递 消息 。 使 用 一 个 线程 来 模拟 每 个 随 
机 .请求 向 其 他 工作 站 传递 消息 的 工作 站 ， 并 在 实现 时 考虑 消息 的 大 小 和 消息 冲突 的 情 
况 。 

请 扩展 习题 8-27 的 程序 ， 通 过 提供 多 个 以 太 网 线路 的 方法 (如 1.4 节 所 描述 的 )。 

编写 一 个 多 线程 程序 来 模拟 一 个 超 立 方 体 网 络 和 一 个 网 格 (mesh) 网 络 ， 其 中 两 者 都 
在 结 点 之 间 具 有 多 条 并 行 的 通信 链 路 。 观 察 一 下 当 结 点 之 间 的 并 行 链 路 数 增加 的 时 候 ， 
性 能 是 如 何 变化 的 ; 并 使 用 模拟 的 结果 对 超 立 方 体 和 网 格 这 两 种 网 络 的 性 能 进行 比较 
研究 。 其 中 ， 性 能 的 衡量 标准 包括 每 个 时 间 段 内 接受 的 请 求 数 。 请 参见 [Wilkinson ， 
1996] 来 了 解 这 个 模拟 练习 的 更 多 细节 和 采样 结果 。 

设计 并 实现 一 个 使 用 锁 来 保护 临界 区 和 条 件 变 量 并 且 只 需要 少 于 3 页 的 代码 就 可 以 实现 
的 问题 。 

编写 一 个 程序 来 模拟 一 个 由 AND、OR 和 NOT 门 以 各 种 用 户 定义 的 方式 连接 而 组 成 的 数 
字 系 统 。 每 个 AND 和 OR 门 有 两 个 输入 和 一 个 ”测试 1 
输出 , 而 每 个 NOT 门 则 有 一 个 输入 和 一 个 输出 。 测试 2 
每 个 门 由 一 个 线程 来 实现 ， 并 从 其 他 的 门 接收 
布尔 值 。 这 个 程序 的 输入 数据 则 是 一 个 定义 各 测试 3 
个 门 的 门 函 数 和 它们 之 间 的 互联 关联 的 数组 ， 

例如 表 8-2 定 义 了 图 8-15 中 所 示 的 逻辑 电路 。 请 

首先 建立 你 的 程序 ， 使 其 能 够 模拟 图 8-1$ 中 所 示 的 逻辑 电路 ， 然 后 修改 这 个 程序 ， 使 
其 能 够 应 用 于 最 多 8 个 门 的 任意 逻辑 线路 。 


表 8-2 图 8-15 的 逻辑 电路 的 描述 





图 8-15 示例 的 逻辑 电路 


功能 输入 1 ”输入 2 输出 
AND 测试 1 测试 2 门 1 
NOT 门 1 输出 1 
OR 测试 3 门 1 : 输出 2 


编写 一 个 多 线程 程序 来 实现 下 面 的 拱 亡 街道 (arcade ) 游戏 : 在 一 个 河流 中 ， 一 些 圆 木 
疝 下 漂浮 移动 (或 者 上 下 移动 ) ; 在 河流 旁 ， 一 只 青蛙 想 要 过 河 ; 这 个 青蛙 必须 在 圆 
木 经 过 的 时 候 ， 跳 到 这 些 圆 木 上 青蛙 才 可 以 过 河 ， 如 图 8-16 所 示 。 青 蛙 只 能 垂直 于 河 
岸 跳动 ， 由 用 户 来 控制 青 峙 何 时 跳 。 如 果 青 蛙 达到 对 岸 ， 那 么 你 就 赢 了 ; 如 果 青 蛙 掉 


to 
个 





278 


8-35 选择 在 其 他 章 中 的 一 个 现实 生活 习题 ， 并 用 


210  ” 弟 一 部 分 其 杰 技术 


到 河 里 你 就 输 了。 游戏 的 过 程 需 要 进行 图 形 化 的 显示 而 且 最 好 能 够 加 上 声音 效果 。 每 
行 圆 木 的 并 发 移动 由 独立 的 线程 来 控制 。( 这 个 习题 是 由 北 卡 罗 来 纳 大 学 夏 洛 特 分 校 的 
四 年 级 学 生 Christopher Wilson 在 1997 年 作为 短期 的 开放 式 作业 (习题 8-30) 提出 并 实 
现 的 。 其 他 的 拱 廊 街道 游戏 也 可 用 线程 的 方法 实现 。) 





图 8-16 习题 8-32 的 河流 和 青蛙 


8-33 在 一 个 典型 的 加 油 站 上 有 许多 从 一 个 油箱 中 拉 出 的 抽 泵 ， 更 复杂 一 些 的 情况 是 存储 在 


油箱 中 的 燃料 通常 只 有 最 低 和 最 高 两 档 不 同 的 燃料 ， 但 每 个 抽 泵 能 提供 从 最 高 档 油箱 、 
最 低档 油箱 中 的 燃料 或 两 者 混合 的 中 档 燃料 。 用 基于 线程 的 并 行 实现 来 模拟 一 个 大 型 
的 加 油 站 ， 该 加 油 站 有 多 至 20 个 抽 泵 从 这 两 个 储存 油箱 中 提供 燃料 并 间 吹 地 有 一 辆 运 
货车 向 油箱 加 入 燃料 。 


8-34 使 用 主 从 结构 组 织 的 线程 集 编写 一 个 简单 的 Web 服 务 程序 。 主 线程 接收 服务 请 求 。 当 


它 得 到 一 个 新 的 请 求 后 ， 它 将 从 线程 池 中 找 
到 一 个 空闲 的 从 线程 来 完成 服务 请 求 ， 如 图 线程 池 
8-17 所 示 。( 这 个 习题 是 由 北 卡罗来纳 州立 人 
大 学 (North Carolina State University) 的 三 < 〇 
年 级 学 生 Kevin Vaughan 作 为 短期 的 开放 式 线 必 “~ 
作业 (习题 8-30) 在 1997 年 提出 并 实现 的 。) 






请 求 





Pthread 和 MPI 进 行 比较 研究 。 测 量 每 一 种 情 
况 下 的 执行 时 间 。 再 用 顺序 方法 实现 ， 并 测 
量 此 时 所 需 的 执行 时 间 。 


图 8-17 习题 8-34 的 线程 池 


8-36 重 做 习题 8-35， 但 比较 OpenMP 和 MPI 的 实现 。 
8-37 重 做 习题 8-35， 但 比较 Pthread 和 OpenMP 的 实现 。 





第 9 章 分 布 式 共享 存储 器 系统 及 其 程序 设计 


本 章 主 要 论述 如 何在 具有 物理 上 分 布 和 独立 存储 器 的 计算 机 机 群 上 使 用 共享 存储 器 程序 
设计 模型 。 从 程序 设计 角度 讲 ， 存 储 器 是 组 合 在 一 起 的 并 为 各 个 处 理 器 所 共享 。 这 种 方法 被 
称 为 分 布 式 共享 存储 器 (DSM，distributed shared memory)， 并 可 用 软件 和 /或 硬件 方法 加 以 
实现 。 我 们 将 注重 软件 方法 ,除了 要 安装 软件 的 代价 外 ， 软 件 方 法 只 需 很 少 其 至 不 需 任何 代 
价 就 可 方便 地 在 现 有 的 机 群 上 加 以 使 用 ， 尽 管 软件 DSM 的 性 能 一 般 不 如 在 同一 机 群 上 使 用 显 
式 消 息 传递 的 方法 。 在 分 布 式 共享 存储 器 系统 上 进行 程序 设计 所 使 用 的 基本 技术 与 在 真正 共 
享 存储 器 上 进行 程序 设计 是 一 样 的 ， 后 者 已 在 第 8 章 中 作 了 叙述 ， 但 现在 由 于 存储 器 在 物理 上 
是 分 布 的 ， 因 而 需 对 共享 存储 器 模型 作 一 些 附 加 的 考虑 。 第 9 章 可 在 第 8 章 后 立即 学 习 ， 也 可 
在 稍 后 学 习 。 


9.1 分 布 式 共享 存储 器 


在 第 8 章 中 ， 已 叙述 如 何 对 一 个 共享 存储 器 多 处 理 机 系统 进行 程序 设计 。 在 这 种 多 处 理 器 
系统 类 型 中 ， 存 在 一 个 中 央 的 “共享 ”存储 器 ， 每 个 处 理 器 可 对 它 直 接 访问 。 处 理 器 与 存储 
器 以 某 种 方式 物理 上 连 在 一 起 ， 并 形成 一 个 单一 的 高 性 能 计算 机 系统 。 共 享 存储 器 允许 每 个 
处 理 器 在 执行 代码 时 对 它 进行 直接 的 数据 访问 ， 而 不 是 通过 消息 将 数据 从 一 台 计 算 机 发 送 给 

一 台 计 算 机 。 对 共享 存储 器 进行 程序 设计 一 般 比 对 消息 传递 进行 程序 设计 更 为 方便 ， 因 为 
它 允 许 各 个 处 理 器 对 任何 大 小 的 数据 进行 访问 ， 而 无 需 显 式 地 向 处 理 器 发 送 数据 。 人 们 可 无 
需 复制 地 处 理 复杂 和 大 型 的 数据 库 ， 但 对 共享 数据 的 访问 不 得 不 由 程序 员 用 锁 或 其 他 方法 加 
以 控制 。 不 论 是 共享 存储 器 模型 还 是 消息 传递 模型 ,通常 需 对 进程 进行 同步 ， 例 如 ， 在 适当 
的 场合 使 用 障 机 同步 。 

分 布 式 共享 存储 器 (DSM) 是 指使 一 组 互联 的 计算 机 ， 尽 管 每 台 计 算 机 拥有 自己 的 存储 
器 且 在 物理 上 是 分 布 的 ,但 看 起 来 像 具 有 单一 编 址 空间 的 单一 存储 器 ， 如 图 9-1 所 示 。 一 旦 实 
现 了 分 布 式 共 享 存储 器 ， 那 么 任何 处 理 器 就 可 访问 任何 存储 单元 ， 而 不 管 该 存储 器 是 否 在 本 
地 ， 这 样 就 可 使 用 普通 共享 存储 器 的 程序 设计 技术 。 当 然 ， 人 们 可 以 简单 地 使 用 共享 存储 器 
多 处 理 机 ， 但 传统 的 总 线 互 联 的 共享 存储 器 多 处 理 机 只 允许 有 限 的 处 理 器 连 到 总 线 上 ， 因 而 
要 将 它们 扩展 成 更 大 的 系统 时 就 很 困难 。 为 了 扩大 系统 ， 就 需要 使 用 各 种 更 为 复杂 的 互联 网 
络 。 与 此 相反 ， 机 群 可 以 很 容易 地 扩展 为 任何 大 小 。 用 机 群 构成 DSM 的 引 人 之 处 在 于 它 的 经 
济 性 ， 使 用 商品 互联 网 可 构成 低廉 的 机 群 。 


计算 机 0 计算 机 1 计算 机 n-1 


一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 才 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 下 -一 一 一 ~ 


~ 
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单一 编 址 空间 





图 9-1 分 布 式 共享 存储 器 
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在 机 群 上 实现 的 DSM 系 统 仍 需 传送 消息 以 在 计算 机 间 移 动 数 据 ， 但 是 这 种 消息 传递 对 用 
户 来 讲 是 透明 的 ， 因 为 用 户 不 必 在 程序 中 显 式 地 说 明 这 些 消 息 。 简 单 地 使 用 合适 的 共享 存储 
器 构造 或 例 程 访 问 共 享 数据 就 可 引发 所 需 的 消息 传递 。 而 该 发 送 什么 消息 、 是 否 需 复制 数据 、 
或 真正 地 将 数据 从 一 台 计 算 机 移动 到 另 一 台 计 算 机 将 由 低层 的 DSM 了 系统 加 以 确定 。 如 将 要 有 叙 
述 的 那样 ， 可 使 用 各 种 协议 来 进行 这 种 消息 传递 。 

DSM 系 统 存在 一 些 缺 点 。 与 真正 的 共享 存储 器 多 处 理 机 系统 相 比 ， 它 所 能 提供 的 性 能 是 
比较 低下 的 ， 因 为 独立 计算 机 间 的 互联 网 络 其 运行 速度 远 低 于 共享 存储 器 多 处 理 机 系统 中 的 
互联 网 络 速 度 。 当 然 ， 对 于 给 定 的 处 理 器 数 ， 机 群 有 低 得 多 的 成 本 和 更 好 的 可 扩展 性 。 当 与 
采用 常规 消息 传递 例 程 的 机 群 相 比 时 ，DSM 通 常会 在 性 能 上 略 显 进 色 ， 因 为 可 以 预期 由 程序 
员 插 入 的 消息 传递 例 程 比 自动 的 DSM 方 法 会 有 更 高 的 效率 。 但 某 些 例子 证 明 ， 这 并 非 是 永远 
正确 的 ， 因 为 DSM 系 统 能 利用 优化 或 更 聪明 的 协议 ， 而 对 程序 员 来 讲 通常 无 法 在 自己 的 程序 
中 将 它们 识别 出 来 。 

一 个 机 群 可 由 一 组 单 处 理 器 系统 、 一 组 如 图 9-2 所 示 的 4 奔腾 系统 那样 的 SMP 多 处 理 机 系 
统 或 单 处 理 器 及 多 处 理 器 的 组 合 系统 来 构成 。 对 SMP 机 群 的 程序 设计 会 出 现 一 些 很 有 趣 的 可 
能 性 。 借 助 消息 传递 程序 设计 或 是 在 SMP 计 算 机 间 用 分 布 式 共享 存储 器 进行 程序 设计 可 在 每 
个 SMP 计 算 机 中 完成 真正 的 共享 存储 器 程序 设计 。 充 分 地 使 用 SMP 计 算 机 就 可 创建 一 个 单一 
的 DSM 环 境 。 


SMP 计 算 机 0 SMP 计 算 机 xz-1 





图 9-2 SMP 机 群 


9.2 分 布 式 共享 存储 器 的 实现 


自 20 世 纪 80 年 代 中 期 以 来 ， 在 研究 团体 中 就 已 开始 对 DSM 进 行 研究 ，DSM 可 用 软件 、 硬 
件 或 是 硬 软 件 结合 的 方法 加 以 实现 。 


9.2.1 软件 DSM 系 统 


在 软件 方法 中 ， 不 需 对 机 群 的 硬件 作 任 何 改 变 ， 一切 只 需 借 助 软件 例 程 就 可 完成 。 通 常 
只 需 在 操作 系统 和 应 用 层 之 间 增 加 一 个 软件 层 ， 而 是 否 需 对 操作 系统 的 核心 进行 修改 则 取决 
于 具体 的 实现 。 该 软件 层 可 以 是 : 

。 基 于 页 面 的 

。 基 于 共享 变量 的 

。 基 于 对 象 的 

在 基于 页 面 的 方法 中 ， 使 用 系统 现 有 的 虚拟 存储 器 来 引发 计算 机 间 的 数据 移动 ， 如 图 9-3 
所 示 ， 这 仅 在 要 访问 的 页 面 不 在 本 地 时 才 会 发 生 。 该 方法 有 时 称 为 虚拟 共享 存储 器 系统 
(virtual shared memory system )。 也 许 是 [Li，1986] 第 一 个 开发 了 基于 页 面 的 DSM 系 统 ， 之 后 
又 有 一 些 基 于 页 面 的 DSM 系 统 ， 其 中 最 著名 的 要 数 Rice 大 学 [Amza et al. ，1996] 开 发 的 
TreadMarks。 另 一 个 使 用 虚拟 存储 器 机 制 的 一 个 分 布 式 共享 存储 器 系统 的 例子 是 Locust 
[Verma and Chiueh ,1998]。 





条 9 更 “分布 式 夫 苯 疗 久 器 负 红 及 其 程序 三 矿 213 








图 9-3 基于 页 面 的 PSM 了 系统 


基于 页 面 方法 的 主要 缺点 是 由 于 要 移动 的 数据 是 一 个 完整 的 页 面 ， 依 赖 于 低层 的 虚拟 存 
储 器 系统 ， 它 可 以 是 1024 或 更 多 个 字 节 ， 一 般 这 总 是 多 于 所 指定 要 访问 的 数据 。 从 而 导致 要 
传送 比 所 需 的 更 长 消息 。 此 外 ， 大 的 页 面 使 假 共享 的 影响 在 页 面 一 级 比 在 高 速 缓 存 一 级 更 加 
严重 。 在 基于 页 面 系统 的 环境 中 ， 假 共享 是 指 不 同 的 处 理 器 需要 访问 的 是 不 同 的 页 面部 分 ， 
它们 并 没有 真正 共享 实际 的 信息 ， 但 整个 页 面 不 得 不 为 每 个 访问 不 同 页 面部 分 的 处 理 器 所 共 
享 。 最 后 ， 基 于 页 面 的 系统 可 能 移植 性 不 好 ， 因 为 它们 常常 与 某 个 具体 的 虚拟 存储 器 硬件 和 
软件 捆绑 在 一 起 。 | 

在 共享 变量 方法 中 ， 传 送 的 只 是 那些 被 声明 为 共享 的 变量 ， 而 这 是 按 需 加 以 说 明 的 。 它 不 
使 用 分 页 机 制 来 完成 传递 。 相反 , 它 由 程序 员 通 过 直接 或 间接 的 调用 软件 例 程 来 完成 这 一 动作 。 
该 方法 的 一 个 例子 是 Munin [Benett，Carter，and Zwaenepoel，1990]。 其 他 更 多 的 属于 这 一 类 
的 近期 系统 包括 JIAJIA[Hu，Shi，and Tang, 1999] 及 Adsmith [Liang, King, and Lai，1996]。 
后 者 虽 是 用 C++ 编写 的 ， 但 从 用 户 看 来 是 一 个 共享 变量 系统 。 稍 后 我 们 将 更 详细 地 叙述 如 何 实 
现 共享 变量 方法 。 如 果 性 能 不 是 一 个 关键 因素 ， 这 种 方法 的 实现 将 是 非常 容易 的 。 

在 面向 对 象 方法 中 ， 共 享 数 据 被 包含 在 对 象 中 ， 对 象 包括 数据 项 和 其 唯一 的 过 程 〈 方 法 )， 
该 方法 可 用 来 访问 共享 数据 。 在 其 他 方面 ， 面 向 对 象 的 方法 类 似 于 共享 变量 方法 ， 因 而 可 被 
看 成 是 共享 变量 方法 的 一 种 扩展 。 使 用 像 C++ 或 Java 这 样 基于 对 象 的 语言 可 相当 容易 地 实现 这 
种 方法 ， 其 胜 过 共享 变量 方法 之 处 是 在 于 它 提供 的 是 面向 对 象 的 规则 。 


9.2.2 DSM 系 统 的 硬件 实现 


在 硬件 方法 中 ， 系 统 需 引 入 专用 的 网 络 接 口 和 高 速 缓存 一 致电 路 ， 使 对 远程 存储 单元 的 
访问 如 同 对 本 地 的 存储 单元 访问 一 样 。 有 不 少 专 用 的 接口 支持 共享 存储 器 的 操作 。 实 例 包 括 
虚拟 存储 器 映射 网 络 接 日 (Virtual Memory-Mapped Network Interface) [Blumrich et al.， 
1995]、Myrinet[Boden et al., 1995] 、SCI [Hellwagner and Reinefeld，19991， 以 及 存储 器 集成 
网 络 接口 (Memory-Integrated Network Interface ) [Minnich, Burns, and Hady，1995]。 

比 起 软件 方法 来 ， 硬 件 方法 会 提供 更 高 的 性 能 。 软 件 方法 通常 需要 在 操作 系统 和 用 户 应 
用 程序 间 增 加 一 层 额 外 的 软件 。 有 些 甚至 需要 一 个 独立 的 消息 传递 肢 。 此 外 ， 软 件 方法 通常 
需要 使 用 现 有 的 商品 接口 〈 如 以 太 网 ) 从 而 导致 显著 的 性 能 开销 。 就 教学 目的 而 言 ， 纯 软件 
方法 比 硬件 方法 更 有 吸引 力 ， 因 为 它 可 不 加 修改 地 就 使 用 现 有 的 计算 机 系统 ， 为 此 下 面 将 主 
要 讨论 软件 方法 。 : 四 
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”9.2.3 对 共享 数据 的 管理 


处 理 器 可 使 用 好 几 种 方法 来 实现 对 共享 数据 的 访问 。 最 简单 的 方法 是 设置 一 个 中 央 服 务 器 
(central server) 由 它 负责 所 有 的 对 共享 数据 的 读 和 写 操作 ， 并 使 处 理 器 向 该 服务 器 进行 请 求 。 
对 共享 数据 的 所 有 读 和 写 都 发 生 在 一 个 地 方 并 且 是 顺序 的 ， 即 它 实 现 了 一 个 单 阅读 器 / 单 写 入 器 
策略 。 这 一 策略 很 少 使 用 (在 简单 的 学 生 作 业 中 除外 )， 因 为 所 有 的 请 求 必须 集中 到 一 个 地 方 ， 
从 而 导致 显著 的 瓶颈 。 如 果 使 用 多 个 服务 器 这 一 问题 可 得 到 某 种 程度 的 缓和 ， 因 为 每 个 服务 器 
只 负责 共享 变量 的 一 个 子 集 ， 但 此 时 需要 一 个 映射 功能 以 定位 各 个 服务 器 。 

一 般 希 望 有 多 个 数据 拷贝 以 允许 不 同 处 理 器 同时 对 该 数据 进行 访问 ， 此 时 必须 使 用 一 致 
性 策略 以 维持 这 些 拷 贝 的 一 致 性 。 多 阅读 器 / 单 写 入 器 策略 允许 多 个 处 理 器 同时 读 共 享 数据 ， 
但 在 任何 瞬间 只 允许 一 个 处 理 器 改变 此 数据 ， 将 数据 在 需要 它 的 地 方 加 以 复制 ， 就 可 有 效 地 
实现 这 一 点 。 这 种 策略 只 允许 在 一 个 场所 (拥有 者 ) 改变 该 数据 。 

在 多 阅读 器 / 单 写 人 器 策略 中 ， 当 拥有 者 改变 共享 数据 时 ， 其 他 拷贝 便 不 再 正确 。 处 理 这 
一 情况 可 使 用 以 下 两 种 方法 : 

“更 新 策略 

。 使 无 效 策略 
在 更 新 策略 中 ， 通 过 一 个 广播 消息 使 数据 的 所 有 其 他 拷贝 立即 改变 以 反映 这 一 变化 。 在 使 无 
效 策略 中 ， 所 有 其 他 的 数据 拷贝 被 标记 为 无 效 。 如 果 它 们 在 以 后 被 访问 ， 将 得 到 一 个 指明 它 
们 是 无 效 数据 的 响应 ， 并 使 处 理 器 向 该 数据 的 拥有 者 请 求 以 获得 该 数据 最 近 的 值 。 一 般 都 青 
睐 使 无 效 策略 ， 因 为 仅 当 处 理 器 试图 访问 已 更 新 的 拷贝 时 、 才 会 产生 消息 ， 而 任何 在 以 后 不 
再 被 访问 的 数据 拷贝 将 保持 无 效 不 变 。 通 常 两 种 策略 都 需 是 可 靠 的 。 广 播 消 息 可 能 需要 分 别 
的 确认 动作 的 确认 (reply )。 | 

在 多 阅读 器 /多 写 入 器 策略 中 ,会 有 多 个 数据 拷贝 ， 并 允许 由 不 同 的 处 理 器 改变 不 同 的 找 
贝 。 这 是 最 复杂 的 情景 ， 需 要 对 每 个 写 操作 进行 编号 以 对 写 操作 进行 排序 。 更 多 的 细节 可 在 
[Protic，Tomasevic，and Milutinovic ，1996] 中 找到 。 


9.2.4 基于 页 面 系统 的 多 阅读 器 / 单 写 入 器 策略 


在 基于 页 面 的 系统 中 ， 当 访问 一 个 共享 变量 而 它 又 不 在 本 地 时 ， 将 传送 含有 该 变量 的 整 
个 页 面 。 页 面 是 共享 的 最 小 单位 。 存 于 该 页 面 上 不 被 共享 的 一 个 变量 ， 当 该 页 面 上 的 另 一 变 
量 被 其 他 地 方 需要 时 ， 整 个 页 面 将 被 移动 ， 则 该 变量 将 随 该 页 面 移 动 或 是 被 作废 ( 即 可 能 出 
现 假 共享 ) 。TreadMarks 在 处 理 这 一 问题 时 ， 人 允许 页 面 的 不 同 部 分 被 不 同 的 进程 改变 ， 但 在 同 
步 点 ( 即 是 页 面 级 而 不 是 共享 变量 级 的 多 写 入 器 协议 ) 更 新 每 个 拷贝 。 假 定 两 个 进程 正 对 一 
个 页 面 的 不 同 部 分 进行 号 人 。 每 个 进程 在 写 人 之 前 ， 首 先 为 该 页 面 生成 另 一 个 拷贝 (一 个 李 
生 页 面 (twin ))。 该 页 面 的 不 同 拷贝 仅 在 同步 点 才 会 变 成 一 致 。 这 是 每 个 进程 通过 对 该 页 面 
与 它 的 未 被 修改 的 挛 生 页 面 按 字 比 较为 它 的 页 面 修改 创建 一 个 记录 来 完成 的 。 所 创建 的 “diff” 
是 页 面 修改 运行 长 度 的 编码 。 此 后 ， 每 个 diff 被 送 到 另 一 个 进程 ， 并 允许 它 更 改 它 的 拷贝 。 有 
关 TreadMarks 的 更 多 细节 可 在 [Amza et al.，1996] 中 找到 。 


9.3 在 DSM 系 统 中 实现 一 致 性 存储 器 


术语 存储 器 一 致 性 模型 主要 论 及 一 个 共享 变量 的 当前 值 何 时 可 被 其 他 处 理 器 看 到 。 已 经 
有 各 种 各 样 的 模型 ， 它 们 以 递 降 的 约束 条 件 来 提供 沸 在 的 更 高 性 能 。 最 严格 的 模型 是 严格 一 
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致 性 (strict consistency ) 模型 。 
严格 一 致 性 
严格 一 致 性 是 指 ， 当 一 个 处 理 器 读 一 个 共享 变量 时 ， 电信 到 的 将 是 最 近 一 次 号 人 该 共享 
变量 的 值 。 图 9- pig 致 性 作 了 说 明 。 例 中 ，x 和 y 是 共享 变量 ,一旦 它们 被 改变 ， 所 有 其 
他 处 理 器 将 被 告知 这 种 改变 (可 采用 使 无 效 消息 而 不 是 更 新 消息 。 如 前 所 述 ， 使 无 效 方法 一 
般 好 于 更 新 方法 。) 
进程 A 进程 B 进程 C 


.| x 1 
write(X) 二 一 一 一 一 一 一 | 
1 





1 
write(y) 
1 








1 
1 
通知 其 他 进程 1 
1 
1 
1 


read(y) 


1 
| 
1 
上 
| 
| read(x) 
1 
1 


图 9-4 严格 一 致 性 


严格 一 致 性 的 主要 缺点 是 它 会 生成 大 量 的 消息 。 另 外 ， 即 使 在 该 模型 中 ， 处 理 器 在 实际 
看 到 使 无 效 /更 新 之 前 有 一 个 延迟 ， 这 是 因为 改变 不 可 能 在 瞬间 完成 。 最 近 一 次 写 的 时 间 一 般 
是 不 确定 的 ， 因 为 它 依赖 于 各 个 处 理 器 对 指令 的 执行 时 间 ， 而 这 些 处 理 器 的 运行 又 是 相互 独 
立 的 。 

在 松弛 存储 器 一 致 性 (relax memory consistency) 模型 中 ， 为 减少 消息 数 ， 其 他 处 理 器 
所 看 到 的 写 已 被 延迟 。 存 在 有 多 种 松弛 存储 器 一 致 性 的 模型 : 

(1) 弱 一 致 性 

在 弱 一 致 性 (weak consistency ) 模型 中 ， 当 需要 强制 实现 顺序 一 致 性 时 ， 由 程序 员 使 用 
同步 操作 来 完成 (参见 8.4.3 节 )。 这 就 允许 编译 器 和 处 理 器 在 其 他 地 方 重新 排序 指令 ， 而 不 用 
考虑 顺序 一 致 性 。 这 是 一 个 相当 合理 的 模型 ， 因 为 对 共享 数据 的 任何 访问 将 用 同步 操作 ( 例 
如 锁 等 ) 加 以 控制 。 进程 A 进程 BB 

(2) 释放 一 致 性 | 

释放 一 致 性 (release consistency) 模型 是 对 弱 一 致 性 模 uircooet) 
型 的 扩展 ， 在 该 模型 中 ， 必 须 指 明 同 步 操作 。 程 序 员 必 须 使 全 
用 acquire 和 release 这 两 个 同步 操作 符 : release(lock1) 

acquire (获得 ) 操作 一 在 读 共享 变量 之 前 使 用 。 ' 


release (释放 ) 操作 - 在 共享 变量 已 被 改变 之 后 使 用 。 acquiredockl) 
典型 地 ， 用 一 个 加 锁 操 作 完成 获得 ， 而 用 一 个 开锁 操作 完成 | Te 
释放 (尽管 不 一 定 非 如 此 )。 图 9-5 对 释放 一 致 性 模型 作 了 说 reieasetiockl) 
明 。 在 该 例 中 由 进程 1 更 新 共享 变量 x 和 y， 而 后 由 进程 2 读 共 
享 变 量 x 和 y。 ! ! 

(3) 滞后 释放 一 致 性 图 9-5 释放 一 致 性 


对 DSM 系 统 来 讲 ， 关 于 释放 一 - 致 性 的 流行 观点 是 更 新 仅 在 acquire 时 完成 ， 而 不 是 在 
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release 时 完成 ， 如 图 9-6 所 示 。 与 释放 一 致 性 相 比 ， 江 后 释放 一 致 性 (lazy release consistency ) 
将 产生 更 少 的 消息 。 进程 A 进程 B 


9.4 分 布 式 共享 存储 器 的 程序 设计 原 语 | 


acquire(lock1) ! 

在 共享 存储 器 程序 设计 中 ， 必 须 提供 以 下 4 种 基本 和 必需 YE 的 
的 操作 : release(lock1) ' 

1) 进程 /线程 的 创建 (和 终止 ) ， 

2) 共享 数据 的 创建 

3) 互 斥 同 步 〈 对 共享 数据 的 可 控 访 问 ) 

4) 进程 /线程 和 事件 的 同步 
在 一 个 DSM 系 统 中 也 必须 提供 这 些 操 作 ， 典 型 地 是 通过 用 户 
级 的 库 调 用 加 以 提供 。 图 9-6 滞后 释放 一 致 性 

不 同 PSM 系 统 的 例 程 集 ， 如 Adsmith 和 TreadMarks ， 实 际 上 互相 之 间 是 非常 类 似 的 。 这 
里 我 们 将 回顾 在 大 多 数 DSM 系 统 中 可 找到 的 公共 例 程 ， 并 使 用 带 前 级 dsm 的 通用 例 程 名 。 特 
有 的 Adsmith 例 程 带 有 前 级 adsm。( 注 意 字母 串 “dsm” 是 在 A-dsm-ith 中 。) 我 们 让 学 生 使 用 
Adsmith 来 完成 课外 作业 的 程序 设计 。 


9.4.1 进程 的 创建 
如 果 支 持 动态 进程 创建 的 话 ， 一 个 如 下 的 DSM 例 程 


dsm_spawn (filename, num processes); 
将 启动 一 个 新 进程 。 此 后 进程 如 要 “会 合 (join)”， 则 可 用 


dsm wait (); 


它 将 导致 该 进程 等 待 所 有 它 的 子 进程 ( 即 它 所 创建 的 进程 ) 终止。 
9.4.2 共享 数据 的 创建 
声明 共享 数据 需要 使 用 如 下 的 例 程 或 构造 ， 如 : 


Qsm_shareQ(&x) : 
它 将 为 共享 数据 提供 一 个 指针 。 在 Adsmith 和 TreadMarks 的 PSM 系 统 中 ， 将 以 C 语 言 的 malloc 
为 共享 数据 动态 地 创建 一 个 存储 器 空间 : 

dsm malloc (); 
在 使 用 后 ， 该 存储 器 空间 可 用 例 程 

dsm_free(}); 
加 以 释放 。 未 在 Adsmith 和 TreadMarks 中 采用 的 一 种 更 优美 的 方法 是 使 用 如 下 简单 共享 数据 
的 声明 : 

shared int x; 
更 进一步 ， 则 可 完全 采用 面向 对 象 的 设计 ， 且 在 接口 处 将 共享 变量 封装 在 对 象 和 作用 于 其 上 
的 方法 中 。 然 而 ， 无 论 怎样 的 声明 ， 共 享 数 据 或 对 象 通常 有 一 个 由 创建 例 程 选择 的 “宿主 ” 
单元 ， 它 靠近 对 它 进行 写 入 的 进程 。 达 到 更 高 的 性 能 将 取决 于 访问 模式 ， 可 移动 (迁移) 宿 
主 单元 以 临近 其 他 的 处 理 器 。 


让 
< 一 一 acquire(lock1) 


read(x) 
read(y) 
release(lock1) 
1 
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9.4.3 共享 数据 的 访问 


在 一 个 使 用 松弛 一 致 性 模型 的 DSM 系 统 ( 即 大 多 数 DSM 系 统 ) 中 ， 程 序 员 需要 显 式 地 使 
用 锁 或 其 他 机 制 防止 来 自 不 同 进程 对 读 / 写 的 竞争 访问 。 对 共享 变量 sum 的 增 量 操 作 的 代码 序 
列 如 下 : 

dsm_lock (lock1); 

dsm refresh (sum); 

dsm_flush (sum); 

dsm unlock (lock]l); 

其 中 ，lock1 是 一 个 与 sum 有 关 的 锁 变量 。 在 加 锁 后 ，dsm_refresh( ) 获 得 sum 的 当前 值 。 
然后 ， 进 程 增 量 sum， 接 着 dsm_flush( ) 用 一 个 新 值 更 新 sum 的 宿主 单元 。 

”对 共享 变量 的 某 些 访问 可 能 不 会 发 生 竞争 。 例 如 ， 数 据 是 简单 地 只 读 ( 永 不 改变 ) ， 或 各 
个 进程 以 这 样 的 方式 同步 ， 即 不 允许 在 同一 时 间 有 多 于 一 个 的 进程 访问 共享 数据 。 在 这 些 情 
况 下 ， 就 不 需要 将 访问 放 在 临界 区 中 。 此 时 前 一 代码 就 可 变 为 : 

dsm_refresh (sum); 


*SUI ++; 
dsm_flush (sum); 


如 果 变 量 只 是 读 的 ， 那 么 只 需 一 个 更 新 (refresh) 就 足够 了 ; 例如 


dsm_refresh {sum); 
a = *sum + b; 


某 些 系 统 为 不 同类 型 的 访问 提供 了 高 效 的 例 程 ， 以 区 分 对 共享 变量 的 不 同 使 用 。 例 如 
Adsmith 提供 了 三 种 类 型 的 访问 : 








* 一 般 访 问 一 一 访问 共享 变量 的 规整 赋值 语 名 
“ 同步 访问 一 一 用 于 同步 目的 的 竞争 访问 
“ 非 同步 访问 一 一 不 是 用 于 同步 的 竞争 访问 





一 个 早期 的 系统 ，Munin [ Carter，Bennett，and Zwaenepoel，1995]， 将 这 一 概念 更 延伸 了 一 
步 ， 它 共 区 分 九 种 类 型 的 访问 (后 来 缩小 为 五 种 )， 但 需 由 程序 员 选 择 合适 的 类 型 。 
9.4.4 同步 访问 

与 消息 传递 程序 设计 一 样 ， 进 程 同步 以 两 种 主要 形式 进行 : 全 局 同步 和 进程 对 的 同步 ， 
必须 对 两 者 都 加 以 提供 。 全 局 同步 通常 用 障 栅 来 完成 ， 而 进程 对 的 同步 ， 作 为 一 个 选项 在 同 
一 例 程 中 完成 ， 或 更 好 的 是 用 独立 的 例 程 来 完成 。 在 消息 传递 的 系统 中 ， 如 在 第 6 章 中 所 叙述 
的 那样 ， 可 简单 地 用 同步 发 送 /接收 例 程 来 完成 进程 对 的 同步 。 使 用 障 栅 时 需要 说 明 一 个 识别 
符 以 识别 所 指定 的 障 栅 : 

dsm_barrier (identifier); 


在 使 用 现 有 的 消息 传递 系统 的 系统 中 ， 消 息 传递 系统 中 已 有 同步 例 程 可 供 使 用 。 当 然 ， 
这 些 DSM 系 统 也 可 提供 它们 自己 的 同步 例 程 。 


9.4.5 改进 性 能 的 要 点 
面向 研究 的 DSM 系 统 的 基本 目的 之 一 是 设计 改进 系统 性 能 的 方法 ， 它 通常 包括 重 和 到 计算 


287 
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和 通信 操作 以 及 减少 消息 数 。 


1.， 重重 计算 与 通信 

重合 计 算 与 通信 的 一 种 方法 是 使 用 一 个 “ 预 取 (prefetch )” 例 程 在 需要 它 的 结果 前 启动 
一 个 非 阻塞 通信 。 预 取 例 程 应 尽量 在 代码 中 向 后 插入 ， 这 受制 于 向 后 多 远 被 传送 的 数据 仍 是 
最 新 的 ; 例如 ， 


barrier ()}; 
dsm_prefetch (sum); /* sum known to be up-to-date at this point */ 


a= *sum + b; 


在 预 取 且 数据 正 被 取出 时 ， 程 序 将 继续 执行 。 而 在 稍 后 的 某 个 点 将 需要 此 数据 。 若 该 数据 已 
到 达 ， 就 可 立即 加 以 使 用 ， 否 则 执行 将 停止 直到 该 数据 到 达 为 止 。 

预 取 甚 至 可 猜测 地 进行 ， 即 纵然 在 某 些 情况 下 可 能 不 需要 此 数据 但 仍 预 取 它 ， 如 在 以 下 
的 代码 中 : 


barrier(): 
dsm_prefetch (sum); /* sum known to be up-to-date at this point */ 


if (b == 0) a = *sum + b; 


这 里 ， 如 果 b 不 等 于 0 就 不 需要 sum， 只 需 简 单 地 将 其 丢弃 。 

预 取 机 制 非常 类 似 于 使 用 在 某 些 先进 处 理 器 中 的 猜测 装载 (speculative-load) 机 制 ， 它 可 
重合 存储 器 操作 和 程序 执行 。 存 储 器 装载 操作 较 费 时 间 ， 而 猜测 装载 在 程序 中 需要 该 数据 前 
的 较 早 的 位 置 处 进行 启动 。 在 等 待 装载 完成 前 ， 允 许 程序 继续 执行 。 如 果 在 程序 中 将 猜测 装 
载 的 位 置 放 得 过 前 就 会 导致 程序 执行 顺序 发 生 改 变 ( 如 在 我 们 的 例子 中 ， 在 预 取 之 上 )， 则 必 - 
须 在 合适 的 位 置 用 专门 的 机 制 来 处 置 存储 器 的 异常 (出 错 条 件 )。 类 似 地 ， 在 一 个 DSM 系 统 中 
当 执行 一 个 预 取 时 也 可 能 出 现 错误 ， 因 为 本 来 这 个 预 取 可 能 不 会 出 现 。 例 如 在 我 们 上 面 的 序 
列 中 ， 假 定 当 b 不 等 于 0 时 在 预 取 点 sum 是 无 效 的 ， 而 当 b 等 于 0 时 为 有 效 。 如 果 不 论 b 是 什么 值 
就 进行 预 取 ， 那 么 就 可 能 出 现 一 个 异常 ， 而 该 异常 在 没有 预 取 时 本 不 会 出 现 的 。 程 序 员 必 须 
确定 预 取 能 安全 的 使 用 。 

2. 减少 消息 的 数量 加 

可 以 通过 提供 一 些 组 合 基本 例 程 的 公共 序列 而 构成 的 例 程 以 减少 消息 数 (“ 京 集 ” 消 息 )。 
例如 ， 前 面 使 用 4 个 例 程 的 临界 区 : 

dsm_lock (lock]l); 

dsm_refresh (sum); 


dsm_flush (sum); 
dsm_ unlock (lock1) ; 
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可 减少 成 两 个 : 

dsm_ acquire (sum); 
*SUm 十 二， 

dsm_release (sum); 


例 程 dsm_acquire(sum) 实 际 是 将 dsm_lock(lockl1) 和 dsm _refresh(sum) 组 合 在 一 
起 完成 ， 类 似 地 dsm_ release(sum) 完 成 的 动作 是 将 Gsm flushl(sunm) 和 
dsm_unlock(1lock1) 组 合 在 一 起 。 在 上 述 两 种 情况 下 ， 在 实现 中 均 可 减少 消息 数 。 

可 对 每 个 产生 它们 自己 消息 的 相同 例 程序 列 进行 安排 ， 使 这 些 消息 可 被 组 合 在 一 起 。 也 
可 为 一 些 公共 操作 提供 高 效 的 例 程 ， 例 如 ， 共 享 变量 的 例 程 可 作为 累加 器 使 用 。 


9.5 分 布 式 共享 存储 器 的 程序 设计 


在 第 8 章 中 已 提 及 ， 在 机 群 上 进行 分 布 式 共 享 存储 器 程序 设计 所 使 用 的 概念 ， 与 在 一 个 共 
享 存储 器 多 处 理 机 系统 上 进行 共享 存储 器 程序 设计 所 使 用 的 概念 是 一 样 的 ， 但 前 者 使 用 的 是 
用 户 级 库 例 程 或 方法 。 以 第 6 章 中 所 叙述 的 热 分 布 问题 为 例 ， 求 解 空 间 被 分 为 二 维 的 点 数组 ， 
而 每 个 点 的 取 值 是 通过 重复 计算 该 点 的 4 个 邻 点 值 的 平均 值得 到 的 ， 直 至 这 些 值 的 求解 收敛 到 
足够 的 精度 。 在 SPMD 结 构 中 ， 用 DSM 例 程 所 写 的 代码 的 直接 解释 导致 如 下 的 代码 〈 将 一 行 
分 配 到 n-1 个 进程 的 每 一 个 ): 


dsm_sharedarray (*h, n*n); /* Shared array int hln] [n], size n*n */ 
dsm sharedarray{*g, nNn*n); /* Shared array int gfnj [nj，size n*n */ 
dsm_shared (max_dif); /*shared variable to test for convergence */ 
i = processID; /* process.ID from 1 to n-1 */ 

do { 


for (j = 1; j < n; j++) 
g{ij[j} = 0.25 * (hli-1]{j] + hlirl][j] + hfij(ji-1] + hfi][j+1]); 
dsm_ barrier (group); 
for (j=1; j<n; j++) { /* find max divergence/update pts */ 
dif = h(i]j{j] - g[i][j}; /* dif in each process */ 
if (dif < 0) dif = -dif; 
dsm acquire (max._dif) 
if (dif < max dif) max dif = dif; /* max dif a shared variable */ 
dsm_ reljease (mx dif); 
h(ij[(j] = g[il[(j]; 
} 
dsm barrier (group); /* wait for all processes here*/ 
} while (max_dif < tolerance); /* check convergence */ 


所 出 现 的 消息 传递 对 用 户 来 讲 已 被 隐藏， 但 为 此 需要 对 效率 进行 附加 的 考 虚 。 减 少 低层 的 消 
息 传递 是 一 个 关键 方面 。 该 代码 调用 两 个 进程 同步 ( 障 栅 ) 和 一 个 互 斥 同 步 (对 一 个 临界 区 
的 获得 /释放 )。 如 在 稍 前 所 指出 的 那样 ， 同 步 点 将 使 执行 顺序 化 ， 且 将 显著 增加 执行 时 间 ， 
所 以 应 寻找 减少 同步 点 数目 的 方法 ， 特 别 是 在 机 群 上 执行 时 。 在 第 6 章 中 ， 我 们 叙述 了 使 用 无 
序 松弛 可 将 代码 改 成 异步 或 是 部 分 同步 的 ， 这 也 适用 于 DSM 的 程序 设计 。 最 后 ， 应 考虑 采用 
在 9.4.5 节 中 所 叙述 的 那些 可 提高 性 能 的 例 程 。 


9.6 实现 一 个 简易 的 DSM 系 统 
编写 你 自己 的 简易 PSM 系 统 是 相当 直接 的 。 在 本 小 节 ， 我 们 将 论述 如 何 来 做 到 这 一 点 。 
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在 本 章 后 的 课程 设计 中 就 包括 了 创建 你 自己 的 DSM 系 统 ， 它 适宜 作为 扩充 的 课外 作业 。 
9.6.1 使 用 类 和 方法 作为 用 户 接口 


首先 要 确定 的 事情 是 用 户 程序 设计 方法 学 和 用 户 接 口 。 可 以 遵循 用 户 级 例 程 的 方法 ， 如 
在 Adsmith 和 TreadMarks 中 以 及 在 9.4 节 中 所 叙述 的 方法 一 样 。 在 Ctt+ 和 Java 的 面向 对 象 方法 学 
的 基础 上 ， 我 们 已 用 更 好 的 方法 做 了 实验 。 对 于 共享 数据 ， 采 用 包装 类 可 能 更 为 合适 。 例 如 
在 Java 中 ， 我 们 可 以 写 : 

SharedInteger sum = new Sharedinteger(); 

它 扩展 了 整数 类 使 其 能 提供 使 用 在 临界 区 中 的 方法 lock、unlock、refresh 和 flush: 

sum. lock(); 

sum.refresnht{),; 

sum. flush() ; 

sum.unlock(); 

其 中 的 lock 和 unlock 方 法 隐 含 地 使 用 一 个 与 sum 相 关 的 锁 。( 当然 ， 可 采用 独立 的 锁 方 
法 ， 如 Lockl.lock () 和 lockl.unlock ()。) 

可 将 该 方法 进一步 扩展 成 具有 组 合 方法 lockandRefresh 和 flushandUnlock: 


sum.lockandRefresh{); 
SUm++; 
sum.flushandUnlock(); 


我 们 已 实现 的 另 一 个 非常 新 颖 的 方法 是 过 载 (overload) 算术 运算 符 ， 当 书写 以 下 的 赋值 
语句 时 . 

x=y+2 
它 会 自动 产生 适当 的 动作 以 剧 新 y 和 z ， 其 中 y 和 2z 为 共享 变量 。 这 些 仅 是 供 我 们 自己 使 用 的 一 
些 不 同 的 设计 。 


9.6.2 基本 的 共享 变量 实现 


最 简单 的 DSM 实 现 方法 是 使 用 一 个 具有 用 户 级 DSM 库 例 程 的 共享 变量 方法 ， 如 前 面 所 定 
义 的 那样 ， 这 些 库 例 程 是 建立 在 现 有 的 消息 传递 系统 ， 如 MPI， 之 上 的 。 如 已 所 述 的 那样 ， 
这 些 例 程 可 被 包含 在 类 和 方法 中 。 最 基本 的 用 户 级 DSM 例 程 是 共享 变量 的 读 例 程 和 共享 变量 
的 写 例 程 。 写 例 程 可 包含 加 锁 和 开锁 ， 或 是 用 分 别 的 例 程 对 它们 加 以 实现 。 例 程 能 向 一 个 中 
央 单 元 发 送 消 息 ， 如 图 9-7 所 示 ， 该 中 央 单 元 负责 管理 共享 变量 。 这 相当 于 一 个 单 阅读 器 / 写 入 
器 协议 。 严 格 地 讲 ， 共 享 变量 的 加 锁 和 开锁 不 是 必须 的 ， 因 为 对 中 央 服 务 器 而 言 ， 它 每 次 只 
能 做 一 件 事 ， 而 没有 其 他 进程 能 干扰 它 的 动作 。 因 此 ， 针 对 整数 共享 变量 的 服务 器 代码 将 非 
常 简 单 ( 采 用 我 们 惯用 的 伪 代 码 ): 


Go { 
recv(&command, &shared x name, &data, &source, any_source, any tag); 
find(&shared x name, &x); /* find shared variable, return ptr to it */ 
Switch {command) 
case rd: /* read routine */ 
send(&x, source); /* no lock needed */ 


Case wr: /* write routine */ 
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x = data; 
send (&ack, source); /* send an acknowledgement update done*/ 


} while (comand != terminator); 


中 央 服 务 器 
(shared) int x; 


请 求 x 的 当前 值 更 新 x 为 x 





返回 x 的 当前 值 
{local) int x; 
1 
1 


1 
} 
read(x) 
t 
[ 

1 
1 
1 
1 
1 
1 
I 
上 


图 9-7 使 用 中 央 服 务 器 的 简易 DSM 系 统 


消息 由 gcommand (由 它 指明 所 请 求 的 操作 ( 读 、 写 或 茶 些 其 他 操作 ))、&shared_x_name (由 
它 指明 共享 变量 )、data (在 写 的 情况 下 ， 它 拥有 用 来 更 新 共享 变量 的 值 ) 以 及 &source (由 
它 识别 发 送 消 息 的 进程 ) 所 组 成 。 

如 所 提 及 的 那样 ， 集 中 式 的 服务 器 将 导致 瓶颈 ， 因 为 它 每 次 只 能 响应 一 个 消息 和 生成 一 
个 消息 。 这 样 的 方法 在 任何 理性 的 实际 系统 中 都 不 会 采用 ,但 它 却 是 一 个 好 的 起 点 。 用 这 种 
方法 去 开发 运行 在 不 同 处 理 器 上 的 多 个 服务 器 的 代码 是 相当 简单 的 事情 ， 其 中 ， 每 个 服务 器 
负责 指定 的 那些 共享 变量 ， 从 而 可 缓解 瓶颈 ， 如 图 9-8 中 所 示 。 此 时 的 读 和 写 例 程 应 能 定位 负 
责 正 被 访问 的 共享 变量 的 服务 器 。( 通 过 一 个 查找 表 或 是 使 用 其 他 方法 ， 如 散 列 函数 )。 该 方 
法 仍 使 用 单 阅读 器 / 单 写 人 器 协议 。 

对 该 模型 的 进一步 开发 就 可 使 其 具有 多 阅读 器 的 能 力 ， 它 通常 需要 对 共享 数据 进行 复制 。 
假设 我 们 使 用 使 无 效 策略 。 图 9-9 中 对 这 种 多 服务 器 的 工作 情况 作 了 说 明 。 这 里 仍 使 用 我 们 的 
两 例 程 模型 ， 即 读 共享 变量 例 程 和 写 共 享 变量 例 程 。 在 第 一 次 调用 读 例 程 时 ， 将 从 服务 器 获 
得 最 近 的 该 共享 变量 值 ， 并 将 此 共享 变量 值 保留 在 本 地 。 有 了 本 地 拷贝 后 ， 就 允许 多 个 进程 
同时 读 它们 的 拷贝 。 如 以 前 一 样 ， 写 例 程 在 一 个 服务 器 处 更 新 共享 变量 ,但 现在 是 由 一 个 指 
定 的 服务 器 负责 该 共享 变量 。 此 时 ， 其 他 的 本 地 拷贝 ， 如 存在 的 话 ， 需 被 使 无 效 。 使 无 效 的 
消息 对 接收 进程 来 讲 ， 是 一 个 非 期 待 的 消息 ， 因 此 可 能 需要 使 用 单 边 (one-side) 发 送 或 放置 
(put) 例 程 〈 不 需要 相应 接收 的 发 送 例 程 ，MPI-2 中 提供 这 一 功能 ， 但 使 用 时 需 特 别 小 心 ) 。 
如 采 再 次 调用 读 例 程 ， 它 将 返回 本 地 的 拷贝 值 ， 如 果 该 拷贝 值 是 有 效 的 话 ， 此 时 就 不 会 向 服 
务 器 发 送 任何 消息 。 如 果 本 地 拷贝 为 无 效 ， 表 明 有 一 个 更 新 的 值 存在 ， 此 时 便 向 服务 器 发 送 
消息 ， 以 获得 此 最 新 值 。 异 步 算法 可 能 不 需要 最 近 的 值 ， 因 而 可 简单 地 使 用 赋值 语句 以 获得 x 
的 本 地 拷贝 而 不 是 使 用 读 例 程 。 


CD 
Lo 





[4 
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涂 本 退 大 


GD 


请 求 x 的 当前 值 
返回 x 的 当前 值 
(local) int x; | (local) int y; 
read(x) 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 





图 9-8 使 用 多 服务 器 的 简易 DSM 系 统 


-一 一 一 一 一 (shared) int y; 






若 本 地 拷贝 无 效 
请 求 x 的 当前 值 


{local) int x; 
1 





read(x) 
1 


| 






1 
确认 写 已 完成 
1 
1 


图 9-9 使 用 多 服务 器 和 多 阅读 器 策略 的 简易 DSM 系 统 


下 一 步 是 取消 服务 器 并 为 每 个 共享 变量 提供 一 个 宿主 单元 和 一 个 进程 负责 该 变量 。 读 例 
程 向 该 进程 请 求 获 得 最 近 的 值 。 事 实 上 ， 代 码 不 需 作 任何 改变 ， 只 需 简单 地 映射 该 服务 器 和 
指定 作为 共享 变量 的 宿主 进程 到 同一 个 处 理 器 。 使 用 宿主 单元 的 优点 在 于 在 宿主 单元 进行 写 
操作 时 不 会 产生 任何 消息 。 


9.6.3 ”数据 组 的 重 准 


在 第 1 章 中 我 们 介绍 了 重 肥 互通 网 络 的 概念 , 在 这 种 网 络 中 提供 了 互通 区 域 及 区 域 的 重 倒 。 
这 种 互通 方式 导致 形成 一 个 具有 很 好 可 扩展 性 的 网 络 ， 从 而 可 与 许多 科学 与 工程 中 的 物理 应 
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用 相 匹配 。 许 多 现实 生活 中 的 应 用 不 需要 全 局 共享 存储 器 ， 而 是 只 需 局 部 的 共享 存储 器 ， 在 
那里 对 存储 器 的 访问 是 在 重合 区 域内 进行 。 实 例 包括 许多 物理 系统 的 模拟 (例如 ， 物 理学、 
机 械 工程 、 天 气 预报 中 的 问题 )。 在 这 些 应 用 中 ， 很 典型 的 情况 是 完成 计算 的 处 理 器 需要 与 逻 
辑 上 临近 的 那些 处 理 器 进行 通信 以 获得 最 终结 果 。 当 然 还 有 其 他 好 处 ， 包 括 能 提供 一 个 机 制 
以 检测 程序 中 的 逻辑 错误 。 | 

为 相同 目的 提供 数据 访问 区 域 的 概念 可 用 到 DSM 系 统 中 。 让 我 们 在 对 称 多 处 理 机 机 群 
(SMP) 上 来 考虑 这 一 概念 。 一 个 对 称 多 处 理 机 是 一 个 共享 存储 器 多 处 理 机 ， 其 中 每 个 处 理 器 
对 共享 存储 器 有 相同 的 访问 时 间 ， 而 与 处 理 器 在 共享 存储 器 中 的 位 置 无 关 ( 即 均 匀 存 储 器 存 
取 系 统 )。 具 有 少量 处 理 器 的 这 种 类 型 的 系统 是 非常 经 济 有 效 的 ， 并 已 被 广泛 应 用 ， 特 别 是 作 
为 Web 服 务 器 。 重 登 局 部 共享 存储 器 的 概念 考虑 了 SMP 机 群 系统 的 物理 结构 。 可 以 使 用 软件 
的 DSM 技术 ,但 对 共享 数据 结构 的 访问 只 能 限于 由 程序 员 定 义 的 逻辑 重合 组 。 也 可 以 使 用 一 
组 用 户 级 的 例 程 ， 这 些 例 程 将 与 机 群 上 的 消息 传递 软件 相互 作用 ， 给 用 户 一 个 共享 存储 器 的 
感觉 ， 并 为 共享 存储 器 的 程序 设计 提供 基本 设施 ， 即 创建 共享 数据 、 提 供 对 共享 数据 ( 锁 ) 
的 保护 访问 以 及 同步 机 制 〈 障 栅 )。 然 而 ， 与 全 局 共享 存储 器 系统 的 相反 ， 这 些 例 程 需 预先 对 
共享 数据 重 玖 组 加 以 定义 。 将 MPI 作 为 低层 的 消息 传递 软件 是 非常 方便 的 ， 因 为 它 已 经 有 了 
概念 性 的 通信 区 域 (MPI 通 信子 )， 可 用 来 定义 数据 访问 区 域 。 图 9-10 对 该 系统 作 了 说 明 。 


-通信 交换 器  ，， ，，，  -- 





图 9-10 具有 重合 数据 域 的 对 称 多 处 理 机 系统 
重合 组 将 现 有 的 互联 结构 和 应 用 的 访问 模式 两 方面 密切 地 结合 起 来 。 人 们 可 以 定义 静态 
的 重 登 组 ， 由 程序 员 在 程序 执行 前 定义 ， 或 是 在 程序 执行 时 动态 地 进行 改变 或 创建 。 静 态 的 
重 登 组 可 在 基本 的 数据 访问 例 程 中 用 参数 加 以 声明 。 例 如 ， 
create (data, data_region) 
destroy (data, data_region) 


read (data, data_ region) 
write(data, data_region) 


最 后 ， 根 据 使 用 情况 ， 共 享 变量 可 以 迁移 ， 如 图 9-11 所 示 。 
按照 使 用 算法 迁移 共享 变量 


服务 器 


进程 





图 9-11 使 用 多 服务 器 和 多 阅读 器 策略 的 简易 DSM 系 统 
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所 有 可 扩展 分 布 式 共享 存储 器 系统 使 用 某 种 形式 的 层次 互联 结构 将 处 理 器 组 互联 起 来 。 这 
将 内 在 地 造成 处 理 器 间 的 非 一 致 访问 。 一 个 可 扩展 的 互联 结构 例子 是 又 树 ， 它 适合 于 使 用 xn 
的 以 太 网 交换 器 (100 Mbps 或 Gigabit 以 太 网 )。 一 个 典型 的 商品 以 太 网 交换 器 能 互联 16 台 计算 
机 (一 个 x16 交 换 器 )， 并 允许 与 以 太 网 交换 器 另 一 层次 进行 连接 。 图 9-12 示 出 了 如 何 用 商品 
部 件 来 构成 一 个 更 大 的 系统 。 在 这 种 情况 下 ， 在 树 的 独立 部 分 边界 处 的 重 登 数据 区 ， 其 通信 
会 有 显著 开销 ， 而 在 部 分 树 内 部 的 数据 区 通信 则 将 较为 高 效 。 





16 Xx 16 交 换 器 


X 16 X 16 X 16 X 16 
296 图 9-12 使 用 商品 交换 器 的 可 扩展 系统 
9.7 小 结 
本 章 介 绍 了 以 下 内 容 : 
*。 分布 式 共享 存储 器 (DSM) 的 概念 
。 如 何在 机 群 上 实现 DSM 


* 各 种 管理 共享 数据 的 方法 ， 包 括 阅读 器 / 写 入 器 协议 

“针对 DSM 系 统 的 松弛 一 致 性 模型 ， 特 别 是 释放 一 致 性 和 滞后 释放 一 致 性 
“ 分布 式 共享 存储 器 程序 设计 原 语 

“ 改进 DSM 系 统 性 能 的 方法 

“ 简易 PSM 实 现 的 细节 


推荐 读物 


有 关 分 布 式 共 享 存 储 器 的 论文 包括 [Judge et al.，1999]、fNitzberg and Lo，1991]、[Protic ， 
Tomasevic, and Milutinovic ，1996] 和 [Stumm and Zho, 1990]。 [Protic, Tomasevic, and 
Milutinovic ，1998] 发 表 了 有 关 分 布 式 共享 存储 器 的 一 组 重要 论文 。 直 接 使 用 共享 存储 器 程序 
设计 工具 是 可 能 的 ， 如 果 适 当 的 加 以 实现 ， 则 单独 地 用 在 机 群 上 也 是 可 能 的 。 例 如 ， 一 个 
“大 小 相当 的 OpenMP 子 集 ” 已 由 [Lu，Hu，and Zwaenepoel，1998] 在 一 个 工作 站 网 络 上 实现 。 
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习题 


在 下 面 ， 当 编写 一 个 DSM 程 序 时 ， 可 使 用 任何 你 能 获得 的 DSM 系 统 。 在 第 8 章 中 所 提供 


的 共享 存储 器 习题 也 适合 DSM 的 实现 。 
科学 /数值 习题 


9-1 


9-2 


9-3 


编写 一 个 DSM 程 序 ， 用 奇偶 互 换 排 序 对 "个 整数 数列 进行 排序 ， 假 定 " 是 2 的 乘 方 。 要 求 


对 你 的 程序 进 和 清晰 的 说 明 。 


编写 一 个 矩阵 相 乘 的 DSM 程 序 ， 需 将 矩阵 分 成 4 个 子 矩 阵 ， 并 使 用 4 个 进程 。 要 求 对 你 的 


程序 进行 清晰 的 说 明 。 
就 你 自己 所 选 的 问题 ， 对 DSM 程 序 设 计 和 消息 传递 程序 设计 进行 比较 研究 。 


225 


297 
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9-4 


9-5 


对 并 行 系统 的 研究 ， 常 常 采用 基准 测试 程序 ， 其 中 一 套 程序 SPLASH-2 [Woo，1995] ， 
含有 应 用 代码 ， 如 Barnes-Hut 的 N 体 计算 L-U 和 矩 阵 分 解 、 以 及 模拟 。 设 法 获得 这 套 基 准 测 
试 程序 ， 并 在 你 自己 的 DSM 并 行 /机 群 计算 机 系统 上 对 它 进 行 评估 。 

对 第 6 章 的 习题 6-14 所 叙述 的 用 同步 选 代 和 蜡 步 选 代 方法 求解 热 分 布 问题 进行 比较 研究 。 
为 每 一 种 方法 编写 DSM 程 序 ， 并 如 在 9.5 节 中 所 叙述 的 那样 确定 使 用 异步 方法 在 执行 速 
度 上 的 改进 。 对 在 同步 点 间 采 用 不 同 的 选 代 步 数 进行 实验 。 


现实 生活 习题 


9-6 


9-7 


Big-I 是 世界 上 最 大 的 某 保险 公司 ， 它 的 办 公 室 分 散在 世界 各 地 的 35 个 城市 中 ，、 并 有 超过 
735 000 000 张 的 有 效 保险 单 ， 总 面值 为 530.8 亿 美元 。 一 个 高 速 的 办 公 室 间 的 网 络 链接 
了 Big-I 的 35 个 办 公 室 和 它 的 中 央 总 部 (位 于 洛 基 山脉 某 处 的 一 个 安全 的 地 下 设施 中 。) 
所 有 的 保险 单 信息 被 保存 在 总 部 的 RAID-5 的 存储 系统 中 。 

由 代理 输入 有 关 新 保险 单 的 信息 ， 改 变现 有 的 保险 单 ， 以 及 日 常 的 客户 关系 的 变化 
《结婚 /离婚 、 出 生 、 死 亡 、 医 疗 记录 、 法 院 记 录 等 )。 源 自 世 界 任何 地 方 的 这 些 信 息 可 
能 与 某 一 具体 客户 有 关 。 例 如 ， 在 美国 Big-I 保 险 的 一 个 客户 Fred Jones 旅 游 到 巴黎 去 庆 
祝 他 的 50 岁 生日 ， 在 那里 生 了 病 并 作 了 手术 ; 同一 天 在 北 卡 罗莱 纳 州 对 他 的 离婚 作 了 终 
判 。Big-I 的 代理 在 巴黎 和 北 卡 罗 来 纳 州 要 同时 访问 /更 改 Fred 的 记录 以 反映 有 关 他 的 医 
疗 情况 和 婚姻 状况 的 新 信息 。 

描述 有 关 Big-I 的 中 央 存 储 系统 的 设计 问题 。 描 述 如 果 中 央 存 储 系统 需 镜像 到 几 百 英 
里 以 外 的 第 2 个 地 下 设施 中 时 应 对 设计 进行 何 种 改变 。 

Big-I 刚 好 到 任 一 位 新 执行 总 裁 ， 他 认为 中 央 存 储 的 思想 已 经 过 时 ， 并 想 用 分 布 式 

方法 取而代之 。 他 提议 36 个 机 构 的 每 一 个 维持 自己 的 本 地 信息 存储 、 但 仍 能 输入 和 访问 
所 有 有 关 一 个 客户 的 信息 ， 而 不 论 该 信息 是 在 何 处 输入 /存储 的 : 一 个 全 球 的 分 布 /共享 
存储 系统 。 描 述 将 中 央 存 储 的 信息 分 布 到 世界 各 地 35 个 办 公 室 的 一 个 转变 计划 。 有 叙述 . 
Big-I 的 IT 部 门 如 何 能 模拟 网 络 对 分 布 式 共享 存储 系统 的 影响 以 及 网 络 对 一 个 中 央 存储 
但 允许 (可 能 ) 同时 访问 的 系统 的 影响 ， 并 对 两 者 加 以 比较 。 
Adamms 家 庭 享 受 着 非常 亲密 关系 的 乐趣 。Tom 和 Sue Adamms 已 结婚 23 年 ， 并 有 8 个 子 
女 ， 所 有 成 员 至 少 在 3 项 运动 上 很 活跃 ， 再 加 上 教堂 和 学 校 。Tom 和 Sue 都 是 一 家 大 型 
保险 公司 Big-I 的 不 同 部 门 的 高 层 行政 管理 人 员 ， 他 们 的 日 程 表 通 常 有 10 到 30 个 约会 /会 
议事 项 。 随 着 子女 们 的 长 大 ， 以 及 他 们 更 多 地 潜心 于 个 人 的 活动 日 程 而 不 是 Tom 和 Sue 
的 活动 日 程 ， 几 乎 可 以 肯定 会 出 现 小 的 灾难 ! 就 在 上 个 星期 Polly (9 岁 ) 排 定 要 参加 
她 所 在 球 队 的 一 场 足 球 比 赛 ， 但 这 一 信息 在 Tom 和 Sue 的 日 程 表 中 都 没有 反映 。 因 为 过 
少 的 队员 出 现在 球场 上 导致 Polly 的 队 取 消 了 该 比赛 ; 一 个 星期 后 Polly 仍 为 此 事 而 问 问 
不 乐 。 

有 关 可 供 整 个 家 庭 访问 〈 及 修改 ) 的 中 央 日 程 表 系统 的 设计 应 涉及 哪些 方面 ? 就 日 
程 安排 而 言 ， 如 果 某 个 人 相对 于 其 他 人 确 有 优先 权 ， 则 应 作 何 种 修改 ? (孩子 们 可 输入 / 
改变 只 影响 他 们 自己 的 事项 ， 但 不 能 改变 安排 在 他 们 父母 日 程 表 上 的 事项 。 另 一 个 经 常 
会 发 生 的 情况 是 ，Tom 应 能 输入 /改变 Sue 日 程 表 上 一 项 非 公 务 的 事项 ， 但 不 能 输入 /改变 
一 个 不 同类 的 事项 : 公务 事项 。) 
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DSM 的 实现 设计 项 目 


9-8 用 C++ 编写 一 个 DSM 系 统 ， 采 用 MPI 作 为 低层 的 消息 传递 和 进程 通信 。 

9-9 用 Java 编 写 一 个 DSM 系 统 ， 采 用 MPI 作 为 低层 的 消息 传递 和 进程 通信 。 

9-10 《更 难 的 习题 ) 软件 DSM 系 统 的 一 个 根本 人 缺点 是 缺乏 对 低层 消息 传递 的 控制 。 在 DSM 
例 程 中 提供 参数 就 能 控制 消息 传递 。 编 写 允 许 通 信和 计算 可 重 到 执 行 的 例 程 。 
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第 10 音 排序 算法 


本 章 讨论 一 些 关 于 数字 排序 方法 。 人 们 通常 使 用 顺序 程序 设计 方法 来 研究 排序 并 得 到 许 
多 著名 排序 方法 。 这 里 我 们 选择 几 个 常用 的 顺序 排序 算法 来 将 它们 转换 成 并 行 实现 。 本 章 还 
将 描述 几 个 特地 为 并 行 实现 而 设计 的 排序 算法 。 最 后 ， 将 讨论 一 些 近期 受 关注 的 在 机 群 上 实 
现 的 排序 算法 。 


10.1 概述 


10.1.1 排序 


数字 排序 ， 即 将 一 系列 数字 按 升 序 (或 降序 ) 进行 排列 ， 是 很 多 应 用 中 的 一 个 基本 操作 。 
如 果 在 这 一 系列 数字 中 有 重复 的 数字 存在 ， 那 么 更 合理 的 排序 定义 应 为 : 将 一 系列 数字 按 非 
降序 (或 非 升序 ) 进行 排列 。 排 序 也 被 应 用 于 非 数字 领域 ， 如 将 一 些 字符 串 按 字母 表 顺 序 排 
列 。 人 们 使 用 排序 是 为 了 方便 有 些 操作 如 查找 。 为 了 方便 读者 查找 指定 的 书籍 ， 图 书馆 将 藏 
书 按 主题 / 书 名 依次 排列 。 

有 两 种 排序 算法 用 于 示范 特殊 的 并 行 技术 。 在 4.2.1 节 提 到 用 桶 排序 来 演示 分 治 策略 ， 在 
5.2.2 布 中 使 用 插入 排序 来 示范 流水 线 技术 。 本 章 将 观察 另外 一 些 排序 算法 并 对 这 些 算法 使 用 
最 合适 的 并 行 化 技术 。 许 多 并 行 排序 算法 和 顺序 排序 算法 的 并 行 实现 都 是 同步 算法 ， 在 这 些 
算法 中 对 数字 一 组 操作 必须 等 待 上 一 组 操作 完成 后 才能 进行 ， 因 此 它们 可 使 用 第 6 章 叙 述 的 同 
10.1.2 可 能 的 加 速 比 


快速 排序 和 归并 排序 是 常用 的 顺序 排序 算法 。 它 们 属于 “基于 比较 ”的 排序 算法 ， 即 在 
比较 数 对 的 基础 上 进行 排序 。 如 对 个 数字 排序 ， 在 最 差 情 况 下 归并 排序 的 时 间 复 杂 性 和 快速 
排序 的 平均 时 间 复 杂 性 都 是 O(nlogn)。 如 果 不 使 用 数字 的 特殊 属性 ，O(nlog) 实 际 上 是 所 有 基 
于 比较 的 顺序 排序 算法 中 最 佳 的 。 因 此 如 果 我 们 使 用 p 个 处 理 器 基于 顺序 排序 算法 的 最 好 的 并 
行 时 间 复 杂 性 为 : 


最 佳 的 并 行 时 间 复 杂 性 = =O 〇 (ogn) ， 如 果 p = 


o(nlogn) 

p 

[Leighton，1984] 提 出 一 个 使 用 n 个 处 理 器 、 时 间 复 杂 性 为 O(logn) 的 排序 算法 ， 该 算法 基 
于 [Ajtai，Koml6s，and Szemerédi，1983] 所 提出 的 算法 ， 但 隐藏 在 阶 符号 中 的 常量 非常 大 。 
[Leighton，1994] 则 为 由 n 个 处 理 器 组 成 的 、 使 用 随机 操作 的 超 立 方 体 结构 提出 了 一 个 时 间 复 
杂 性 为 O(logn) 的 排序 算法 。[Ak1，1985] 描 述 了 20 个 不 同 的 并 行 排序 算法 ， 其 中 一 些 算法 对 于 
特殊 的 互联 网 络 达 到 了 较 低 的 下 限 。 但 总 的 来 说 ， 用 n 个 处 理 器 的 基于 比较 的 顺序 排序 算法 实 
际 要 达到 O(logn) 并 不 是 一 件 容易 的 事 。 为 达到 这 个 目标 使 用 的 处 理 器 数 可 能 超过 n。 下 面 让 
我 们 首先 讨论 传统 的 基于 比较 的 算法 。 
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10.2 比较 和 交换 排序 算法 
10.2.1 比较 和 交换 


比较 和 交换 操作 是 一 些 (如 果 不 是 大 多 数 ) 顺序 排序 算法 的 基础 。 在 比较 和 交换 操作 中 ， 


两 个 数 ， 记 为 4 和 B8， 进 行 比较 。 如 果 A >B8B， 那 么 4 和 8B 单元 中 的 内 容 交 换 ， 也 就 是 说 ， 保 存 4 
的 单元 内 容 被 移 到 保存 B 的 单元 中 而 保存 8 的 单元 的 内 容 被 移 到 保存 4 的 单元 中 ， 否 则 单元 的 
内 容 保持 不 变 。 以 下 的 顺序 代码 描述 了 该 比较 和 交换 : 
if (A>B) { 
tenmp = A; 
A=B; 
B = temp; 
} 
比较 和 交换 很 适合 于 消息 传递 系统 。 假 设 比较 和 交换 在 两 个 数 4 和 B 之 间 进 行 ，4 存 放 在 
进程 P! 中 而 8 存放 在 P; 中 。 执 行 比较 和 交换 操作 的 一 个 简单 办 法 是 P1 将 4 发 向 P;:， 由 P; 比较 4 和 
B8B， 如 果 A 大 于 B 则 将 8 发 回 P1， 否 则 将 4 发 回 P1。P; 不 是 必须 将 4 发 回 P1!， 因 为 Pl 已 经 有 A 了 ， 
但 这 样 做 可 以 使 无 论 在 何 种 情况 下 (4 大 于 8B 或 相反 ) 发 送 和 接受 操作 的 次 数 一 样 。 图 10-1 展 
示 了 这 种 方法 ， 相 关 代码 如 下 : 
进程 户 
send(&A, P>); 
recv (&A, P»); 
进程 尸 
recv(&A, P1); 
if (A>B) { 
send(&B, P1); 
B=A; 
} else 
send (gaA, P1); 











一 一 一 
如 果 4 > B 发 送 (B) 

否则 发 送 (4) 如 果 4 > 互 加载 4 

否则 加 载 B 


图 10-1 消息 传递 系统 中 的 比较 和 交换 一 一 版 本 1 


另外 一 种 实现 方法 是 已 将 4 发 向 P 的 同时 PP 将 8 发 向 P,， 然 后 两 个 进程 同时 进行 比较 操作 ， 
已 保留 较 小 的 数 ， 而 P 保 留 较 大 的 数 ， 如 图 10-2 所 示 ， 该 方法 的 代码 如 下 : 

进程 户 

send (&A, P2); 

recv (&B, P,); 

if (A>B)A=B; 


| 
be 
心 
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进程 

recv (&A, P1):; 
SenQ(&B， P1); 

if (A>B)B=A; 


如 果 4>B 加 载 4 





图 10-2 消息 传递 系统 中 的 比较 和 交换 一 一 版 本 2 


进程 P1 先 执行 send ( ) ， 同 时 进程 P; 先 执行 Tecv ( ) 以 防止 死 锁 (在 版 本 1 中 send( ) 和 
recv() 的 顺序 不 会 导致 死 锁 )。 如 果 使 用 本 地 阻塞 (异步 ) 发 送 并 且 有 足够 大 的 缓冲 区 ， 那 
么 Pl 和 P: 就 可 以 都 先 执行 send ( ) ， 这 样 两 个 进程 就 可 以 通过 同时 初始 化 它们 的 消息 传输 来 
覆盖 消息 传输 的 开销 。 我 们 必须 指出 在 MPI 意 义 上 讲 这 种 编程 方式 并 不 安全 ， 因 为 如 果 系统 
没有 提供 足够 的 缓冲 区 ， 死 锁 就 可 能 发 生 。 

1. 注意 重复 计算 的 精确 性 

上 面 的 代码 假设 两 个 处 理 器 的 if 条 件 A>B 会 返回 相同 的 布尔 答案 。 但 当 进 行 实数 比较 时 ， 
以 不 同 精确 度 运行 的 处 理 器 可 能 得 到 不 同 的 答案 。 任 何 为 了 降低 消息 传递 量 而 在 不 同 处 理 器 
上 的 重复 的 计算 都 可 能 发 生 这 种 情况 。 在 我 们 的 代码 中 消息 传递 量 并 没有 减少 ， 但 对 所 有 进 
程 来 说 使 每 个 进程 的 代码 看 上 去 类 似 可 以 使 这 个 单一 程序 更 容易 构造 。 

2. 数据 划分 

虽然 到 目前 为 止 我 们 假设 一 个 数 分 配 到 一 个 处 理 器 ， 但 通常 待 排序 数 的 数量 远 远 大 于 处 
理 器 (或 进程 ) 的 数量 。 在 这 些 情况 下 ， 每 个 处 理 器 可 能 分 配 到 一 组 数 。 这 个 方法 可 以 用 于 
所 有 排序 算法 。 假 设 有 p 个 处 理 器 和 nn 个 数 。 每 个 处 理 器 会 分 配 到 一 列 数量 为 n/p 的 数 。 比 较 和 
交换 操作 将 基于 图 10-1 (版 本 1) 或 图 10-2 (版 本 2)。 图 10-3 显 示 了 版 本 1 的 运作 。 只 有 一 个 处 
理 器 将 分 配给 自己 的 数 传送 到 另 一 台 处 理 器 ， 后 者 在 进行 完 归 并 操作 后 将 这 列 数 较 小 的 一 半 
传 回 第 一 个 进程 。 图 10-4 显 示 了 版 本 2 的 运作 、 两 个 处 理 器 交换 它们 的 组 ， 在 总 共 2n/p 个 数 中 
一 个 处 理 器 将 留 下 较 小 的 n/p 个 数 ， 另 一 个 则 留 下 较 大 的 n/p 个 数 。 一 般 方法 是 在 每 个 处 理 器 上 
保存 一 组 已 排 完 序 的 数列 ， 将 存储 的 数列 与 得 到 的 数列 进行 归并 ， 丢 弃 归 并 后 数列 的 上 半 段 
或 下 半 段 。 同 样 在 这 种 方法 中 ， 假 设 每 个 处 理 器 将 产生 相同 的 结果 ， 并 按 相同 的 方法 来 划分 
数据 。 在 任何 情况 下 ， 归 并 两 组 大 小 为 n/p 的 数列 需要 2(n/p) - 1 步 和 两 次 消息 传递 。 归 并 两 个 
已 排序 的 数 序列 在 排序 算法 中 是 通用 操作 。 

P 





图 10-3 归并 两 个 子 序列 一 版 本 1 
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保留 较 大 的 数 
(最 终 的 数 ) 


保留 较 小 的 数 
(最 终 的 数 ) 





图 10-4 归并 两 个 子 序列 一 一 版 本 2 


比较 和 交换 可 以 用 于 重 排 数 字 对 的 顺序 ， 同 时 比较 和 交换 的 反复 使 用 可 以 完成 一 个 数列 ”B06 
的 排序 ， 它 出 现在 快速 排序 和 归并 排序 中 。 但 首先 让 我 们 考虑 冒 泡 排 序 ， 它 是 使 用 比较 和 交 
换 最 典型 的 排序 算法 之 一 ， 虽 然 对 一 台 顺 序 计 算 机 来 说 它 不 如 快速 排序 和 归并 排序 有 吸引 力 。 


10.2.2 冒 泡 排序 与 奇偶 互 换 排序 


在 冒 泡 排 序 (bubble sort) 中 ， 首 先 通过 一 系列 的 比较 和 交换 将 最 大 的 数 首先 移动 到 序列 
的 一 端 ， 而 比较 和 交换 则 在 另 一 端 开始 。 对 于 给 定 的 一 系列 数 xo，x1，x2，…，Xn-1。 首 先 将 x 
和 x 进行 比较 ， 较 大 的 数 移动 到 x!( 较 小 的 数 则 移动 到 xo)， 然 后 x 和 x 进行 比较 ， 较 大 的 数 移 
动 到 x2， 依 此 类 推 直到 最 大 的 移动 到 xs-1!。 反 复 执行 这 些 操 作 直 到 上 一 次 最 大 数 的 前 一 个 位 置 ， 
以 得 到 次 最 大 数 ， 对 每 个 数 都 执行 这 些 操 作 。 通 过 这 种 方法 ， 较 大 的 数 就 向 数列 的 一 端 移动 
(“ 冒 泡 ”)， 图 10-5 中 对 8 个 数 的 序列 进行 排序 的 情况 做 了 说 明 。 
对 n 个 数 来 说 ， 在 第 一 阶段 得 到 最 大 数 并 将 其 移动 到 序列 的 一 端的 过 程 中 有 n-1 次 比较 和 交换 
操作 。 在 第 二 阶段 得 到 次 最 大 数 需要 "一 2 次 比较 和 交换 操作 ， 依 此 类 推 。 因 此 总 的 操作 次 数 为 : 


比较 和 交换 操作 次 数 = 了 了 i- 全 07 
一 308 
这 表示 它 的 时 间 复杂 性 为 0 02)， 一 次 比较 和 交换 操作 有 固定 的 复杂 性 : 0(1)。 


1. 顺序 代码 
假设 待 排 序数 存放 在 数组 a[ 1 中 ， 则 顺序 语 代 码 可 为 : 
for (i =n-1; i > 0; i-~) 
for (] = 0; j < i; j++) { 
k=j+1; 
if (a[j] > a[lk]) { 
temp = a[jl]; 
a[j] = alkj; 
a[lk)] = temp; 
} 
} 


2. 并 行 代码 一 一 奇偶 互 换 排序 

冒 泡 排 序 是 一 个 纯 顺 序 算 靶 。 内 循环 中 的 每 一 步 发 生 在 下 一 步 前 并 且 整 个 内 循环 在 外 循 
环 的 下 一 次 迭代 前 完成 。 但 在 顺序 代码 中 使 用 依赖 前 一 条 语句 的 指令 并 不 意味 着 它 不 能 被 改 
写 为 并 行 算法 。 内 循环 的 下 一 次 迭代 的 “ 冒 泡 ”动作 可 以 在 前 一 次 迭代 完成 前 开始 ， 只 要 下 
一 次 “ 管 泡 ” 动 作 不 影响 前 一 次 迭代 。 这 意味 着 流水 线 的 结构 将 比较 适合 。 
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时 间 1! 
图 10-5 冒 泡 排序 的 步 驶 
309 图 10-6 说 明 在 流水 线 中 冒 泡 排序 的 随后 交换 操作 是 如 何在 其 他 操作 之 后 完成 的 。 我 们 可 
以 发 现 如 果 和 迭代 1 和 和 迭代 2 可 由 一 个 独立 的 进程 加 以 分 开 ， 则 和 揭 代 2 可 以 在 远 代 1 之 后 同时 进行 ， 
同样 远 代 3 可 以 在 迭代 2 之 后 同时 进行 。 
阶段 1 


[ 
阶段 2 
| G4 
时 间 |[ | 
阶段 3 


国 <> 国 : 
[] [Fe 
[Da [Ca 


图 10-6 流水 线 中 冒 泡 排 序 动作 的 重 登 
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这 个 想法 导致 冒 泡 算 法 的 变形 即 奇 偶 ( 互 换 ) 排序 odd-even(transpositiow) sort 的 产生 ， 
该 算法 运行 于 两 个 交替 阶段 ， 厅 阶段 和 倡 阶段。 在 偶 阶 段 偶数 编号 进程 与 它们 的 右 邻 居 交 换 
数据 ， 同 样 在 坷 阶段 奇数 编号 进程 与 它们 的 右 邻 居 交 换 数 据 。 奇 偶 互 换 排 序 通 常 不 会 在 顺序 
程序 设计 中 加 以 讨论 ， 因 为 和 普通 冒 泡 算法 相 比 它 没有 特殊 的 优点 。 但 并 行 实现 可 以 将 它 的 
时 间 复 杂 性 降 到 O(n)。 奇 偶 互 换 排序 可 以 在 线形 网 络 中 实现 并 且 在 该 网 络 中 是 最 佳 的 (因为 
在 最 差 情 况 下 重新 放置 一 个 数 仅 需要 n 步 )。 图 10-7 显 示 了 奇偶 互 换 排序 如 何 应 用 在 8 个 数 的 序 
列 中 ， 每 个 进程 存放 一 个 数 。 





Po Pi 已 P; Ps Ps Ps Pp, 

纱 ， 4 > 2 7 <—> 8 5 < 1 3 < 6 

1 2 4 > 7 8 < 1 5 <—> 3 6 

| 2 2 < 4 7 < 1 8 < 3 5 < 6 
9 3 2 4 > 1 7 < 3 8 < 5 6 
4 2 < 1 4 < 3 7 < 5 8 < 6 

5 1 2 > 3 4 < 5 7 <— 6 8 

6 1 < 2 3 < 4 5 <—» 6 7 < 8 

y7 1 2 > 3 4 < 5 6 <—> 7 8 


图 10-7 对 8 个 数 进行 奇偶 互 换 排序 


首先 让 我 们 分 别 观 察 两 个 不 同 的 运算 阶段 。 在 偶 阶段 ， 我 们 有 以 下 比较 和 交换 : Po<*Pi、 
己 <> 已 等 等 ， 使 用 与 10.2.1 节 中 提 到 的 版 本 2 相同 形式 进行 比较 和 交换 ， 代 码 如 下 : 
Pi，i = 0, 2,4,…, n~-2 (偶数 ) Pi, i= 1,3,5,…, nl (奇数 ) 


recv (&A, Pi+1); send (&A, Pi_1)}; ~ /* even phase */ 
send (&B, Pi+i1); recv (&B, Pi_1); 
if (A<B)B=A; if (A< B)A=B; /* exchange */ 


Pi ( 偶 ) 中 存放 的 是 B， 而 P; ( 奇 ) 中 存放 的 是 A。 在 奇 阶段 我 们 则 有 以 下 比较 和 交换 : P1<>P，、 
Pa<>P4 等 等 ， 相 应 代码 为 : 
Pi,，i= 1,3,5,…,n-3 (奇数 ) Pi,，i= 2,4,6,…, n-2 (偶数 ) 


send (&A, Pi41); recv (&A, Pi.1); /* od9 phase */ 
recv (&B, Pj;,1); send (&B, Pi.1); 
if (A > B)A=B; if (A>B)B=A; /* exchange */ 


无 论 在 哪个 阶段 都 是 奇数 编号 进程 首先 执行 send ( ) 例 程 ， 而 偶数 编号 进程 首先 执行 recv ( ) 
例 程 。 综 合 起 来 的 代码 为 : 
已 ，i =1,3,3, …,n-3 (奇数 ) Pi，i= 0.2,4, …,n-2 (偶数 ) 


send(&A, Pi-_1); recv (&A, Pi41); /* even phase */ 
recv (&B, Pi_1); send (&B, Pir1); 
if (A< B)A=B; if (A<B)B=A; 
if (i <= n-3) { if {i >= 2) { /* odd phase */ 
send(&A, Pi,1); recv(&A, Pi-1); 
recv (&B, Pir1) send (&B, Pi-_1); 
if (A>B)A=B; if (A>B)B=A; 


) } 
这 些 代 码 段 可 以 合成 为 一 个 单程 序 多 数据 (SPMD ) 格式 的 程序 ， 其 中 的 进程 的 标识 符 可 以 用 
来 选择 特定 处 理 器 将 执行 程序 的 那 部 分 代码 (习题 10-5)。 
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10.2.3 归并 排序 


归并 排序 是 使 用 分 治 方法 的 经 典 顺序 排序 算法 。 首 先 将 待 排序 的 序列 一 分 两 半 ， 每 一 半 
又 被 分 成 两 半 ， 一 直 进行 到 得 到 单个 的 数 ， 然 后 数字 对 被 合并 到 一 个 每 2 个 数 的 有 序 序列 中 ， 
4 个 数 的 有 序 对 被 合并 到 8 个 数 的 有 序 序 列 中 ， 这 样 一 直 继续 到 得 到 一 个 完整 的 已 排序 完毕 的 
序列 。 根 据 以 上 描述 ， 该 算法 可 以 很 好 地 映射 到 第 4 章 所 提 到 的 树 结构 上 去 。 图 10-8 展 示 了 该 
算法 如 何 对 8 个 数 进行 排序 。 可 以 看 到 这 个 结构 与 用 来 分 割 问 题 (图 4-3)、 合 并 问题 (图 4-4) 
的 树 结构 非常 相似 ， 因 此 图 4-3 和 图 4-4 中 的 处 理 器 分 配 策略 也 可 以 使 用 。 

使 用 树 结 构 的 一 个 明显 缺点 是 处 理 器 之 间 的 负载 不 能 很 好 地 平衡 。 一 开始 只 有 一 个 处 理 
器 在 运行 ， 然 后 是 两 个 ， 接 着 是 四 个 ， 以 此 类 推 ， 参 加 计算 的 处 理 器 数 到 达 最 大 值 后 又 逐步 
减少 。 

分 析 

顺序 时 间 复 杂 性 是 O(nlogn)， 在 图 10-8 所 示 的 并 行 版 本 中 共有 2logn 步 ， 但 根据 待 排序 数 


的 多 少 ， 每 步 可 能 需要 完成 不 止 一 个 基本 操作 。 让 我 们 假设 数据 的 部 分 序列 被 分 配 到 各 自 的 
处 理 器 中 ， 然 后 开始 归并 排序 。 
未 排序 序列 
sse @ 
X 
分 序列 gg 人 @ @ 
| 
网 内 四 ® 
y 
aaagaaaaa 四 abs 
加 加 加 内 
| Boen Ban 3 (BD 
DT @ 
已 排序 序列 进程 分 配 
图 10-8 使 用 树 状 进程 分 配 的 归并 排序 
(1) 通信 在 分 割 阶段 ， 只 发 生 以 下 通信 : 





每 步 通信 耗 时 处 理 器 通信 

fstartup 十 (n/2)19ata Po Pa 

Istartup + (n/4)tqata Po 一 Ps; Pa 一 Pe 

tstartup + (n/8)1qata Po Pi; P= Ps; Pa Ps; PoP 


若 有 p 个 处 理 器 ， 则 和 需 进 行 logp 步 。 在 归并 阶段 发 生 相反 的 通信 : 
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tstartup + (1/8)1qata Po€Pi;P © PaPat Ps;Poe Py 


fstartup + (1/4)1gqata Po Py;Pa ee Pe 
Istartup 十 (2/2)tdata Po 《一 Ps 


同样 进行 logp 步 。 因 此 总 的 通信 时 间 为 : 
tcomm= 2 (lstarupt (1/2) taatat tstartupt (1/4) taatattsiartupt (n/8) taaa+ …) 
即 
tomm 2 (logp) tsartwpt2n taaa 
(2) 计算 ”计算 仅仅 发 生 在 归并 子 序列 阶段 。 通 过 遍历 每 个 子 序列 来 进行 归并 ， 并 把 找 
到 的 最 小 数 先 移 进 存储 计算 结果 的 序列 中 。 在 最 坏 情 况 下 归并 两 个 分 别 有 n 个 数 的 已 排序 序列 
到 一 个 结果 序列 需要 2n-1 步 。 计 算 步 骤 如 下 : 


icomp= 1 Po; Py; Pa; Pe 
Icomp =3 Po; Ps 
Icomp = 7 Po 

计算 时 间 : 


logp 


foomp = bg -1) 


如 果 使 用 p 个 处 理 器 并 且 每 个 处 理 器 存放 一 个 数 ， 那 么 并 行 计算 的 时 间 复 杂 性 为 O(p)。 通 常 在 
所 有 排序 算法 中 将 数据 划分 为 若干 组 ， 每 组 分 给 一 个 处 理 器 进 和 排序。 


10.2.4 快速 排序 


快速 排序 [Hoare，1962] 是 一 种 非常 流行 的 顺序 排序 算法 ， 它 的 平均 顺序 时 间 复 杂 性 很 好 ， 
为 O(nlogn)。 需 要 回答 的 问题 是 该 算 法 的 直接 并 行 版 本 ( 个 处 理 器 ) 能 否 达 到 O(logn) 的 时 间 
复杂 性 。 根 据 上 节 的 分 析 归 并 排序 算法 的 性 能 并 不 理想 ,现在 我 们 来 检验 一 下 作为 并 行 排序 
算法 基础 的 快速 排序 。 

让 我 们 从 顺序 程序 设计 角度 来 回忆 一 下 ， 和 归并 排序 一 样 ， 快 速 排 序 算法 首先 将 数列 分 
为 两 个 子 序列 。 其 中 一 个 子 序 列 中 的 所 有 数字 比 另 一 个 子 序列 中 的 所 有 数字 都 小 。 这 可 以 遂 
过 以 下 方法 实现 ， 首 先 选择 一 个 数 ， 称 为 枢 轴 (Pivot)， 用 它 与 其 他 数 进行 比较 。 如 果 一 个 数 
比 枢 轴 小 就 被 放 人 一 个 子 序列 ， 否 则 放 和 人 另 一 个 子 序列 。 枢 轴 可 以 是 序列 中 的 任何 数 ， 但 人 
们 通常 选 序列 的 第 一 个 数 作为 枢 轴 。 枢 轴 本 身 可 以 放 和 人 一 个 子 序列 ， 或 者 枢 轴 被 分 离 出 来 并 
放 在 它 的 最 终 位 置 ， 我 们 选择 分 离 枢 轴 的 方法 。 

在 子 序列 上 重复 上 述 过 程 ， 创 建 四 个 子 序列 ， 实 质 上 像 4.2.1 节 提 到 桶 排序 一 样 将 数字 分 
别 放 入 四 个 子 序列 区 域 ， 所 不 同 的 是 区 域 的 大 小 由 每 步 所 选择 的 枢 轴 来 决定 。 经 过 多 次 重复 
后 ， 每 个 子 序列 中 都 只 有 一 个 数字 ， 这 样 我 们 就 得 到 一 个 有 序 的 序列 。 

1. 顺序 代码 

人 们 经 常 使 用 递归 算法 来 描述 快速 排序 。 假 设 数组 List[ ] 存 放 待 排序 的 数字 ，pivot 是 
枢 轴 最 终 位 置 的 数组 下 标 。 我 们 可 得 到 以 下 形式 的 代码 : 

quicksort (list, start, end) 


{ 
if (start < end) { 
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partition(list, start, end, pivot) 
quicksort (list, start, pivot-1); /* recursively call on sublists*/ 
quicksort (list, pivot+1i, end); 
} . 
} 


partition( ) 移 动 在 list 数 组 中 start 和 end 之 间 的 数字 ， 使 得 小 于 枢 轴 的 数字 被 移动 到 枢 
轴 前 面 ， 而 大 于 等 于 枢 轴 的 数字 被 移动 到 枢 轴 后 面 。 此 时 枢 轴 已 处 在 排序 好 序列 的 最 终 位 置 。 

2. 快速 排序 的 并 行 化 

并 行 化 快速 排序 的 典型 方法 是 在 一 个 处 理 器 上 开始 然后 将 一 个 递归 调用 传 给 另 一 个 处 理 器 
计算 ,而 保留 另 一 个 递归 调用 自己 执行 。 这 样 就 得 到 一 个 和 归并 排序 相似 的 树 结构 ， 如 图 10-9 
所 示 。 在 这 个 例子 里 ， 枢 轴 被 分 配 到 左边 的 子 序列 。 注 意 ， 位 于 两 个 子 序列 之 间 的 枢 轴 位 置 就 
是 枢 轴 在 序列 中 的 最 后 位 置 ， 并 且 在 以 后 的 排序 中 这 个 数 就 不 用 再 考虑 了 。 将 树 重 画 一 下 来 显 
示 枢 轴 是 如 何 被 隐藏 的 ， 然 后 通过 按 序 遍 历 树 就 可 以 得 到 排 完 序 的 序列 了 ， 如 图 10-10 所 示 。 

未 排序 序列 


枢 名 
ET @ 
/ \ 
ug @ @ 
GE OE 


ULD 
— 
wy 


GY ©) @) ®) 
已 排序 序列 进程 分 配 
图 10-9 使 用 树 状 进程 分 配 的 快速 排序 


未 排序 序列 


枢 轴 
| 各 机 和 和 下 
加 四面 ED 





4 
[| 
已 排序 序列 


图 10-10 快速 排序 中 枢 轴 的 隐藏 
所 有 树 结 构 的 基本 问题 是 最 初 的 数据 划分 是 由 一 个 处 理 器 完成 的 ， 这 将 严重 限制 速度 。 
假设 枢 轴 选择 是 理想 的 并 且 序 列 被 分 为 两 个 大 小 一 样 的 子 序列 。 
(1) 计算 首先 一 个 处 理 器 对 m 个 数字 进行 操作 ， 然 后 两 个 处 理 器 分 别 对 m2 个 数据 进行 操 
作 ， 接 着 四 个 处 理 器 各 自 对 n/4 个 数据 进行 操作 ， 依 此 类 推 : 


toomp= n+n/2+n/4+n/8+ ~ 2n 
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(2) 通信 通信 情况 和 归并 排序 类 似 : 
tcomm = (fstarupt (1/2) 1aaa ) + (Lstarupt 1/4) 1aaa) + ( fstarupt+(n/8) laaa) 十 
~ (logp)lstarupt htaata 
以 上 分 析 都 是 针对 理想 情况 的 ， 但 快速 排序 的 树 结 构 通常 不 是 完全 平衡 的 ， 这 是 和 归并 
序 的 树 结构 的 主要 区 别 。 如 果 枢 轴 不 能 将 序列 分 成 相等 的 两 个 子 序列 ， 则 快速 排序 的 树 结 

构 的 深度 就 不 再 固定 为 logn， 最 差 情况 是 每 次 选择 枢 轴 时 都 碰巧 选 到 子 序列 最 大 的 数 ， 这 时 
时 间 复 杂 性 将 下 降 到 O(n?)。 如 果 总 是 选择 子 序列 的 第 一 个 数 做 枢 轴 ， 那 么 待 排 序 序列 的 初始 
顺序 将 成 为 决定 快速 排序 算法 速度 的 关键 因素 。 其 他 数字 也 可 以 被 选 做 枢 轴 ， 在 那 种 情况 下 
枢 轴 的 选择 就 非常 重要 了 。 

3. 工作 池 的 实现 

第 7 章 中 所 描述 的 负载 平衡 技术 ， 著 名 的 工作 了 地 ， 可 以 被 应 用 于 诸如 快速 排序 之 类 的 分 治 
排序 算法 。 工 作 池 可 将 欲 进行 划分 的 子 序列 作为 任务 加 以 保存 。 首 先 工 作 池 保存 一 个 未 排序 
的 序列 ， 并 将 其 交 给 第 一 个 处 理 器 。 这 个 处 理 器 将 序列 分 为 两 部 分 ， 一 部 分 交 回 工作 池 以 给 
其 他 处 理 器 ,对 另 一 部 分 进行 类 似 操作 ， 这 种 方法 如 图 10:11 所 示 。 这 种 方法 并 不 会 减少 空 闪 
处 理 器 的 数量 ， 但 它 能 处 理 一 些 子 序列 比 其 他 的 子 序列 更 长 因此 也 需要 更 多 工作 量 的 情况 。 

在 10.3.2 节 中 我 们 将 讨论 在 超 立 方 体 网 络 上 的 快速 排序 ， 这 是 一 种 能 获得 更 好 性 能 的 排序 
方法 。 





图 10-11 快速 排序 的 工作 池 实 现 


10.2.5 奇偶 归并 排序 


奇偶 归并 排序 算法 是 Batcher 在 1968 年 基于 他 的 奇偶 归并 算法 而 提出 的 并 行 排序 网 络 算法 
[Batcher,1968] 。 奇 偶 归 并 算 革 将 两 个 有 序 序列 归并 为 一 个 有 序 序列 ， 通 过 递归 调用 该 算法 
来 构建 更 大 的 有 序 序列 。 对 于 给 定 的 两 个 有 序 序列 a1，a2,，a3，…，an 和 bi, bz, b3,…, bn 
(n 为 2 的 乘 方 )， 该 算法 完成 如 下 动作 : 
1) 每 个 序列 的 奇数 下 标 索 引 的 元 素 ， 即 w，4a，a，…，a -和 bl1，b3，bs，…，bni 被 归 
并 为 一 个 有 序 序列 ci， C72, C3, “**, Cno 
2) 每 个 序 人 即 42，as，a6，…，4w 和 b2，bs，bs。，…，b, 被 归并 
为 一 个 有 序 序列 4 ， ,dno 
3) 最 后 的 有 序 Me ，e2，e3，…，ean 通 过 以 下 方法 得 到 : 
ex= minfcard 
e211 = Max{cin,di } 
其 中 1<i<n-1。 从 根本 上 说 奇数 和 偶数 的 下 标 序 列 依次 插入 最 后 序列 ， 必 要 时 奇 / 偶 元 素 对 
互 换 将 较 大 的 移 向 一 端 。 第 一 个 数 el = cl (el 是 每 个 序列 中 第 一 个 元 素 中 最 小 的 数 ， 即 a 或 b)， 


汪 
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而 最 后 的 一 个 数 e2,= d，( qd, 为 每 个 序列 中 最 后 一 个 元 素 中 最 大 的 数 ， 即 as 和 b,)。 
Batcher 提 供 了 该 算法 的 证 明 [Batcher，1968]。 将 两 个 各 包含 4 个 数 的 有 序 序列 归并 为 一 个 包含 
8 个 数 的 有 序 序列 的 过 程 见 图 10-12。 归 并 算法 也 可 以 用 于 不 同 长 度 的 序列 ， 但 我 们 这 里 假设 
序列 的 长 度 都 是 2 的 乘 方 。 
可 以 使 用 同样 的 算法 来 建立 最 初 的 每 个 有 序 子 序列 ， 如 图 10-13 所 示 。 该 算法 可 以 递归 调 
用 ,使 得 时 间 复 杂 性 为 O(logn) (使 用 n 个 处 理 器 ) (习题 10-15)。 在 该 例 中 成 对 的 处 理 器 执 
行 比较 和 交换 操作 。Batcher 认 为 整个 算法 也 可 以 使 用 执行 比较 和 交换 操作 的 硬件 部 件 来 完成 。 
[B16| 最终 的 器 件 排列 将 作为 习题 留 给 读者 。 
比较 和 帘 





有 序 序列 







A 
六 
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最 终 的 有 序 序 列 el] 1 2 3 4 5 6 7 8 02 


图 10-12 两 个 有 序 序列 的 奇偶 归并 图 10-13 奇偶 归并 排序 


10.2.6 双 调 谐 归 并 排序 


作为 一 种 并 行 排序 算法 ， 双 调谐 归并 排序 (bitonic mergesort) 也 是 Batcher 于 1968 年 提出 的 。 

1. 双 调 谐 序列 

双 调 谐 归 并 排序 的 基础 是 双 调 谐 序 列 (bitonic sequence)， 一 个 在 排序 算法 中 应 用 的 具 
有 特殊 属性 的 序列 。 一 个 单调 增加 序列 指 序列 中 的 数 从 小 到 大 递增 排列 ， 而 一 个 双 调 谐 序 列 
中 则 包含 两 个 序列 : 一 个 递增 ， 一 个 递减 。 通常 一 个 双 调 谐 序列 中 的 一 系列 数字 ao，al，a2， 
43，、…，4n2，4n -1 是 这 样 排列 的 : 先 单调 递增 到 一 个 最 大 值 然 后 单调 递减 ， 即 对 某 一 个 ;的 
值 (0<i<n) 有 : | 

do<al<ad<ad3, ,di-1<adi>dirl, '*, dn-2> dn-1 

如 有 果 通 过 循环 移 数 〈 左 移 或 右 移 ) 能 得 到 前 面 的 数 ， 则 该 序列 也 为 双 调谐 序列 。 图 10-14 
对 双 调 谐 序列 做 了 说 明 。 注 意 一 个 双 调 谐 序列 可 以 通过 合并 两 个 有 序 序列 (一 个 升序 一 个 降 
序 ) 来 得 到 。 





和 
d0, 41, 42, G3, a dn—2; dn~1 0, 01, 02, 3, a dn-2, dn-1 


a) 一 个 最 大 值 b) 一 个 最 大 值 和 一 个 最 小 值 
图 10-14 双 调谐 序列 
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双 调 谐 序列 的 一 个 “特殊 ”性 质 是 : 如 果 我 们 对 所 有 的 :将 w 和 ai + (序列 中 有 n 个 数 ， 
0<i<m2) 进行 比较 和 交换 操作 ， 就 能 得 到 两 个 双 调 谐 序列 ， 其 中 一 个 双 调 谐 序 列 中 的 所 有 
数 都 小 于 另 一 个 双 调 谐 序 列 中 的 数 。 例 如 有 以 下 双 调 谐 序列 : 

3, 5, 8, 9, 7, 4, 2, 1 
对 所 有 a: 和 ai + 进行 比较 和 交换 操作 ，、 所 得 结果 则 如 图 10-15 所 示 。 

比较 和 交换 操作 将 每 对 数 中 较 小 的 数 移动 到 左边 的 序列 ， 将 较 大 的 数 移动 到 右边 的 序列 。 
注意 所 有 在 左边 序列 中 的 数 都 比 右边 序列 中 的 数 小 ， 并 且 这 两 个 序列 都 是 双 调 谐 序列 。 显 然 
对 一 个 双 调 谐 序列 递归 地 执行 比较 和 交换 操作 来 得 到 子 序 列 实 际 上 就 是 对 该 序列 进行 排序 ， 

如 图 10-16 所 示 。 最 后 得 到 一 组 每 个 只 含有 一 个 数 的 双 调 谐 序列 ， 这 也 就 是 排 完 序 的 序列 。 
双 调 谐 序列 , 
8 9 7 





























3 5 2 1 
比较 和 交换 NA XA 
双 调 谐 序列 3 4|2 1|7 s|s 9 
3 5 8 9 7 4 2 1 A NANA 
比较 和 交换 “人 NVIAAHA 2|1|13|1417 sisilo 
3 4 2 1|7 5 8 9 \/ ‘pF AAA 
1 2 3 4 5 6 7 8 
双 调谐 序列 。 双 调谐 序列 车 序 序 列 
图 10-15 由 一 个 双 调 谐 序列 生成 两 个 双 调谐 序列 图 10-16 对 一 个 双 调 谐 序列 进行 排序 


2. 排序 

为 了 对 无 序 序列 进行 排序 ， 从 一 对 对 邻近 的 数 开 始 ， 序 列 被 归并 为 较 大 的 双 调 谐 序列 。 
通过 比较 和 交换 操作 ， 一 对 对 邻近 的 数 形成 升序 或 降序 序列 ， 它 们 两 两 形成 双 调 谐 序 列 , 其 大 
小 是 原来 每 个 序列 的 两 倍 。 重 复 上 述 过 程 ， 则 所 得 到 的 双 调 谐 序列 将 越 来 越 长 。 在 最 后 一 步 ， 
一 个 双 调 谐 序列 将 被 排序 成 一 个 升序 序列 〈 排 完 序 的 序列 )， 该 算法 如 图 10-17 所 示 。 比 较 和 
交换 操作 既 可 以 形成 升序 序列 也 可 以 形成 降序 序列 ， 且 改变 操作 方向 就 可 形成 一 个 中 间 有 最 1318 
大 值 的 双 调 谐 序列 。 在 图 10-17 中 右边 第 一 个 双 调 谐 序列 在 序列 中 心 有 一 个 最 小 数 ， 而 左边 的 
双 调 谐 序 列 在 序列 中 心 却 有 一 个 最 大 数 。( 如果 两 个 双 调 谐 序 列 在 序列 中 心 都 有 最 大 数 ， 该 算 
法 也 能 正常 工作 。) 

未 排序 的 数 





已 排序 的 数 
图 10-17 双 调 谐 归 并 排序 
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首先 让 我 们 用 一 个 数字 例子 将 算法 扩展 为 基本 的 操作 ， 图 10-18 显 示 了 如 何 使 用 双 调 谐 归 
并 排序 对 8 个 数 进行 排序 。 基 本 的 比较 和 交换 操作 由 一 个 盒子 代表 ， 盒 中 的 箭头 指明 哪个 输出 
是 该 操作 的 数 的 较 大 值 。6 步 (对 8 个 数 ) 分 为 3 个 阶段 : 

第 1 阶段 (第 1 步 ) 将 有 2 个 数 的 数 对 转化 为 升序 /降序 序列 并 形成 两 个 各 有 4 个 数 的 双 调 谐 序列 。 

第 2 阶段 〈 第 2、3 步 ) ”将 两 个 各 有 4 个 数 的 双 调 谐 序列 分 为 2 个 各 有 2 个 数 的 双 调 谐 序列 ， 
并 把 较 大 的 序列 放 在 中 间 ; 对 两 个 各 有 4 个 数 的 双 调 谐 序列 按 升序 /降序 进行 排序 ， 并 把 它们 
归并 为 一 个 有 8 个 数 的 双 调 谐 序列 。 

第 3 阶段 (第 4、5、6 步 ) ”对 有 8 个 数 的 双 调谐 序列 进行 排序 (如 图 10-17 所 示 )。 
如 果 = 2:， 一 般 该 算法 就 有 k 个 阶段 ， 每 个 阶段 包含 1、2、3、…、 上 步 , 则 总 的 步 数 就 等 于 : 
步 数 一 > Tt _ logn et - O(log’ n) 

使 用 n 个 处理 器 (每 个 处 理 器 负责 一 个 数 ) 可 达到 O(log?n) 的 时 间 复 杂 性 是 相当 有 吸引 力 的 。 
像 在 其 他 排序 算法 中 一 样 ， 可 以 通过 数据 分 割 的 办 法 ， 用 增加 内 部 步 数 来 减少 处 理 器 的 数量 。 
双 调 谐 归 并 排序 可 以 被 映射 在 网 格 或 超 立 方 体 上 ，[Quinn，1994] 中 对 此 有 详细 的 描述 ， 也 可 
参见 [Nassimi and Sahni，1979]。 

ai 与 as 比较 和 

交换 (n 个 数 ) 


9 2 1 5 /= 双 调 谐 序 列 
[图 9-24a) 或 b)] 


n=2 4 与 w+l 


形成 4 个 数 的 3 8 7 4 2 9 5 1 人 人 


了 全 
下 
二 让 
了 全 





双 调 谐 序 列 
2 = 间 = 4 与 ar 
和 人 和 人 
形成 8 个 数 的 3 4 7 8 5 9 2 1 全 全 分 割 
双 调 谐 序列 
"2 与 or 
ss / 排序 
4 与 di+4 
排序 双 调 分 割 
谐 序列 
5 与 ai+2 
分 割 
比较 和 交换 - -—_— -到 - n=2 ai 与 Qi+1 





图 10-18 8 个 数 进行 双 调 谐 归并 排序 
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使 用 硬件 来 实现 这 个 算法 (如 由 一 个 逻辑 电路 来 接收 数据 并 对 它们 进行 排序 ， 比 较 和 交 
换 操作 由 逻辑 电路 比较 器 完成 ) 也 是 相当 有 了 吸引 的 ， 在 本 书 中 也 经 常 是 如 此 描述 的 。 算 法 中 |319 
的 每 一 步 需 要 n/2 个 2 入 /2 出 的 比较 器 。 图 10-18 中 的 “接线 ”本 可 以 画 得 更 直接 ， 但 图 10-18 中 
的 “接线 ”能 够 清楚 地 显示 数据 被 比较 的 位 置 以 及 随后 的 去 向 。 


10.3 在 专用 网 络 上 排序 


算法 可 以 利用 并 行 计算 机 中 底层 的 互联 网 络 ， 近 年 来 网 格 和 超 立 方 体 这 两 种 网 络 结构 得 
到 了 众多 的 关注 ， 因 为 许多 并 行 计算 机 是 用 这 两 种 互联 网 络 建成 的 。 我 们 将 描述 几 个 有 代表 [320 
性 的 算法 。 一 般 而 言 ， 现 在 对 这 类 算法 已 少 有 兴趣 ， 因 为 当今 系统 的 底层 体系 结构 通常 已 对 
用 户 隐 藏 。( 但 是 ，MPI 具 有 将 算法 映射 到 网 格 的 特征 ， 并 且 人 们 总 是 能 使 用 网 格 或 超 立 方 体 
算法 ， 即 使 底层 的 体系 结构 不 尽 相同 )。 


10.3.1 二 维 排序 


如 果 数 据 被 映射 在 网 格 上 那 就 存在 其 他 排序 的 方法 。 在 网 格 上 一 组 排序 后 的 数字 的 排列 
是 逐 行 即 招 曲 的 (snakeiike )。 在 扭曲 排列 中 数字 是 按 非 降序 排列 的 ， 如 图 10-19 所 示 。 数 字 
可 通过 向 储存 最 大 数 的 结 点 移动 来 取出 。 一 个 映射 在 线形 最 小 的 数 | 
结构 上 的 一 维 排序 算法 ， 如 奇偶 互 换 排 序 ， 可 以 应 用 于 这 轩 一 -| 品 
些 数字 ， 从 而 得 到 一 个 在 网 格 上 复杂 性 为 O(n) 的 排序 算 
法 ， 但 这 既 没 达到 减少 代价 也 没有 充分 利用 网 格 结构 的 优 
势 。 任 何在 Vn x Vn 网 格 上 的 排序 算法 的 下 限 为 2wm -1 


步 即 O(Yn)， 因 为 在 最 坏 情况 下 需要 这 些 步 来 重新 定位 一 
个 数字 。 注 意 ， 这 里 网 格 网 络 的 直径 是 2Va -1 ， 
fScherson，Sen，and Shamir，1986] 描 述 了 一 种 网 格 | 
结构 的 精巧 的 排序 算法 ， 该 算法 叫 舞曲 排序 (shearsort) ， 最 大 的 数 
在 Vax Vn 网 格 上 对 n 个 数 进行 排序 需要 Vn (logn+1) 步 ， 图 10-19 扭曲 排列 的 有 序 序列 
Lcighton，1992 也 详细 描述 了 该 算法 首先 数 被 映射 在 网 格 上 ， 然 后 执行 一 系列 阶段 (1，2， 
3，…)。 在 奇 阶段 (1， …) 中 执行 下 列 动作 : 
二 和 数字 以 交 村 方向 本 天宇 排 订 
偶数 行 : 每 列 的 最 小 的 数 放 在 最 右 端 ， 最 大 的 数 放 在 最 左 端 ; 
奇数 行 ; 每 列 的 最 小 的 数 放 在 最 左 端 ， 最 大 的 数 放 在 最 右 端 。 
在 偶 阶段 (2，4，6，…) 中 执行 以 下 动作 : 
每 列 数据 各 自 独立 排序 ， 最 小 的 数 放 在 最 上 端 ， 最 大 的 数 放 在 最 下 端 。 321 
logn + 1 个 阶段 后 ， 排 完 序 的 数字 就 扭曲 排列 在 网 格 上 了 。!( 注 意 行 排序 阶段 方向 的 交替 ， 
这 符合 最 终 的 扭曲 布局 . ) 图 10-20 显 未 了 分 布 在 4 x 4 网 格 上 的 16 个 数 是 如 何 排序 的 。 
{Scherson, Sen, and Shamir ， 1986] 和 [Leighton， 1992] 给 出 了 有 具体 证 明 。 行 和 列 的 排序 可 使 
用 包括 奇偶 互 换 排 序 算法 在 内 的 任何 排序 算法 。 如 果 使 用 奇偶 排序 ， 有 Vn 个 数 的 行 或 列 排序 
需要 Vn 步 比较 和 交换 ， 所 以 总 共 需 要 Vn (logn+1) 步 。 
除了 扭曲 排序 还 有 其 他 特地 为 网 格 设置 的 排序 算法 ， 如 [Gu and Gu，1994] 描 述 的 算法 。 
其 他 现存 的 排序 算法 也 可 以 被 修改 以 应 用 于 网 格 结构 。[Thompson and Kung，1977] 也 提出 一 
个 应 用 于 Vn x Vn 网 格 的 、 下 限 为 O(Vm) 的 排序 算法 。 
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使 用 转 置 
人 们 可 以 通过 转 置 每 个 阶段 间 的 数据 点 的 数组 来 将 任何 需 交 替 进 行 行 、 列 操作 的 网 格 算 
法 (如 扭曲 算法 ) 的 操作 限制 在 行 操作 中 。 转 置 操作 将 每 列 中 的 元 素 转 置 到 一 个 行 中 ， 设 数 


组 中 的 元 素 为 ar (0<i<n，0<j<n )。 将 元 素 从 数组 对 主角 线 的 下 方 移动 到 主 对 角 线 的 上 方 
以 使 aj=ax。 转 置 操作 被 放置 在 行 操作 和 列 操作 之 间 ， 如 图 10-21 所 示 ; 在 图 10-21a 中 ， 操 作 在 
行 中 元 素 间 进行 ; 在 图 10-21b 中 发 生 一 次 转 置 操作 ， 将 列 中 的 元 素 移 到 行 中 并 将 行 中 的 元 素 
移 到 列 中 。 在 图 10-21c 中 原先 在 列 中 进行 的 操作 现在 在 行 中 进行 。 





a e) 阶段 4 一 列 排序 f) 最 后 阶段 一 行 排序 
图 10-20 扭曲 排序 


图 10-21 表 示 使 用 一 组 处 理 器 的 并 行 实现 ， 其 中 每 个 处 理 器 负责 对 一 行 数据 的 排序 。 例 如 
考虑 使 用 Vn 个 处 理 器 对 一 个 Yn x Vn 数组 进行 排序 ， 每 个 处 理 器 负责 一 行 ， 需 要 logn + 1 次 
迭代 。 在 每 次 迭代 中 ， 每 个 处 理 器 在 O(Vn logVn) 步 内 来 完成 其 行 中 数据 的 排序 (根据 该 算 
法 奇数 行 和 偶数 行 选择 不 同 的 处 理 方式 )。 转 置 操作 可 以 通过 Yn(Vn -D 即 O (n) (习题 10-7) 
次 通信 来 完成 。 注 意 数据 在 进程 对 之 间 被 交换 ， 每 次 交换 需要 两 次 通信 。 如 果 可 用 ， 一 个 单 
一 的 全 部 到 全 部 例 程 (all-to-all routine) 可 以 减少 这 种 通信 量 (参见 第 4 章 )。 然 后 每 行 再 使 
用 O (Vnlog Vn) 步 进行 排序 。 在 网 格 上 总 的 通信 时 间 复 杂 性 为 O(n)， 这 是 由 转 置 操作 决定 的 。 
这 项 技术 可 以 应 用 在 其 他 结构 上 ， 例 如 每 行 可 以 映射 在 一 个 线形 结构 的 处 理 器 上 。 





行 中 元 素 间 的 操作 b) 转 置 操作 c) 行 (最 初 的 列 ) 中 元 素 间 的 操作 
图 10-21 使 用 转 置 操作 将 排序 操作 限制 在 行 上 


10.3.2 在 超 立方 体 上 进行 快速 排序 


超 立方 体 网 络 有 一 些 结构 特点 ， 这 些 特 点 可 以 为 实现 有 效 的 分 治 策略 的 排序 算法 ， 如 快 
速 排序 ， 提 供 活动 空间 。 
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1. 整个 序列 在 一 个 处 理 器 上 . 
假设 最 初 有 一 个 ?个 数 的 序列 被 放 在 4 维 超 立 方 体 的 一 个 结 点 上 。 使 用 该 处 理 器 所 选择 的 
枢 轴 ， 按 照 快 速 排序 算法 ， 这 个 序列 被 分 成 两 个 部 分 ， 其 中 一 个 部 分 被 送 到 最 高 维 的 邻近 结 


点 。 然 后 这 两 个 结 点 重复 上 述 过 程 : 将 它们 的 序列 使 用 局 部 选择 的 枢 轴 再 一 分 为 二 ， 将 一 部 


分 送 到 次 最 高 维 的 邻近 结 点 。 这 个 过 程 持续 4 步 以 后 ， 每 个 结 点 上 都 将 有 一 部 分 数据 。 对 一 个 
三 维 超 立 方 体 来 说 ， 假 设 数 最 初 都 放 在 结 点 000 上 ， 则 将 有 以 下 划分 过 程 : 
第 一 步 : 000 “~ ”001 (得 到 大 于 枢 轴 的 数 ， 如 pi) 
第 二 步 : 000 “~ ”010 (得 到 大 于 枢 轴 的 数 ， 如 p2) 
001 ”~ 011 (得 到 大 于 枢 轴 的 数 ， 如 p;) 
第 三 步 : 000 一 ”100 (得 到 大 于 枢 轴 的 数 ， 如 ps) 
001  ” 101( 得 到 大 于 枢 轴 的 数 ， 如 ps ) 
010 ”一 110 (得 到 大 于 枢 轴 的 数 ， 如 ps) 
011 一 ”111 (得 到 大 于 枢 轴 的 数 ， 如 p7) 
这 些 操作 详 见 图 10-22。 最 后 ， 所 有 结 点 并 行 地 用 顺序 排序 算法 对 部 分 数据 进行 排序 。 如 
果 需 要 ， 排 完 序 的 部 分 将 被 送 回 一 个 处 理 器 以 允许 该 处 理 器 拼接 已 排序 的 序列 来 建立 最 终 的 
排 完 序 的 序列 。 


on ofolo 
so .gob odo 


pa | >pa4 ps | >ps < pe | >P6 <p7 | >p7 


图 10-22 数 最 初 放 在 结 点 000 时 的 超 立方 体 快 速 排序 算法 


2. 最 初 数据 散布 在 所 有 处 理 器 上 

假设 待 排序 数 最 初 均匀 地 、 不 按 任何 特殊 顺序 地 分 布 在 结 点 上 。 一 个 2 个 结 点 的 超 立方 体 
(d 维 超 立 方 体 ) 由 两 个 24! 个 结 点 的 超 立 方 体 组 成 ， 它 们 通过 每 个 立方 体 中 第 d 维 结 点 之 间 的 
链 路 互联 。 按 同样 的 办 法 这 些小 超 立方 体 可 以 分 为 更 小 的 超 立 方 体 ， 直 到 每 个 超 立 方 体 中 只 
有 一 个 结 点 。 这 个 特性 可 以 被 用 于 超 立 方 体 的 实现 快速 排序 算法 的 直接 扩展 中 ， 其 步 又 如 下 : 
首先 将 超 立 方 体 看 成 两 个 子 立方 体 ， 位 于 高 端子 立方 体 中 的 处 理 器 的 地 址 首位 为 1， 位 于 低 端 
子 立 方 体 中 的 处 理 器 的 地 址 首位 为 0。 成 对 的 地 址 分 别 为 0xKxx 和 ITxxx 的 处 理 器 称 为 “伙伴 ” 
(partner ) ， 其 中 x 是 相同 的 。 第 一 步 为 : 

1) 一 个 处 理 器 (如 Po) 选择 (或 计算 ) 一 个 合适 的 枢 轴 ， 并 通过 广播 把 它 送 到 立方 体 中 
所 有 其 他 处 理 器 。 


|] 
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2) 低 端子 立方 体 中 的 处 理 器 将 大 于 该 枢 轴 的 数 传送 给 它们 位 于 高 端子 立方 体 中 的 伙伴 处 
理 器 。 高 端子 立方 体 中 的 处 理 器 将 小 于 或 等 于 该 枢 轴 的 数 传送 给 它们 位 于 低 端子 立方 体 中 的 
伙伴 处 理 器 。 

3) 每 个 处 理 器 将 收 到 的 序列 和 本 身 的 序列 拼接 。 

给 定 一 个 4d 维 超 立方 体 ， 经 过 这 些 步骤 以 后 ， 低 端 (4d-1) 维 子 立方 体 中 的 数 都 小 于 或 等 于 枢 
轴 ， 而 高 端 (4d-1) 维 立 方 体 中 的 数 都 大 于 枢 轴 。 

两 个 〈d-1) 维 子 立方 体重 复 递 归 调用 第 2、3 步 ， 其 中 每 个 子 立 方 体 中 的 一 个 进程 为 该 子 
立方 体 选 择 枢 轴 并 通过 广播 传送 到 子 立 方 体 中 的 其 他 进程 ， 递 归 调用 logd 次 后 终止 。 假 设 超 
立方 体 有 三 维 ， 那 么 当 递归 调用 终止 后 ， 处 理 器 000 中 的 数 都 小 于 处 理 器 001 中 的 数 ， 而 001 中 
的 数 又 都 小 于 010 中 的 数 ， 依 此 类 推 ， 如 图 10-23 所 示 。 三 维 超 立 方 体 中 的 通信 模式 在 图 10-24 
中 做 了 说 明 。 

广播 枢 轴 ;PI 


Ima 1 (0m) (or) (oo) (on) Qo) Qo) Co) Ca) 
° 
«pl >P1 


广播 枢 轴 ,P2 广播 枢 轴 ,Pp3 
om? (eo) (mm) (00) (on) Cm) Cm) Co) Co) 
«< p2 | >p2 ps | >P3 


广 r 一 pa4 7 播 枢 轴 ,Ps 广 r 一 ps 广 一 py 


< pa | >p4 «ps | >ps «pse pe <p7 | >p7 


图 10-23 数字 散布 在 结 点 中 时 的 超 立 方 体 快速 排序 算法 





a) 阶段 1 通信 b) 阶段 2 通信 0) 阶段 3 通信 
图 10-24 超 立 方 体 快速 排序 中 的 通信 


为 了 完成 排序 ， 每 个 处 理 器 中 的 数 需 要 顺序 进行 排序 。 最 后 按 数字 顺序 访问 处 理 器 就 可 
从 处 理 器 中 检索 数 。 由 于 按 数字 顺序 相 邻 的 处 理 器 之 间 不 一 定 有 直接 的 链 路 ， 所 以 更 方便 的 
方法 是 使 用 图 10-25 所 示 的 结构 ， 它 将 排 完 序 的 数 存放 在 一 组 按 增 序 葛 菜 码 (Gray Code) 顺 
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序 排列 的 处 理 器 中 。 在 更 大 的 超 立 方 体 中 进行 排序 的 探讨 将 作为 习题 〈 习 题 10-13 )。 


广播 枢 轴 、，p1 
IST 

广播 枢 轴 ， p2 广播 枢 轴 ，P 
ym 2 6 9 oF 过 

<p2 
7 一 pi 一 pi 一 pi 一 局 
Omi 
pa >pa <ps | >ps «pe pe &p7 


图 10-25 用 葛 菜 码 排 序 的 超 立 方 体 快速 排序 算法 


3. 枢 轴 的 选择 

在 快速 排序 的 所 有 正式 描述 中 ， 枢 轴 的 选择 都 是 很 重要 的 ， 对 于 多 处 理 机 的 实现 就 更 是 
如 此 。 一 个 拙劣 的 枢 轴 选择 方法 可 能 导致 将 大 多 数 数 分 配 到 超 立方 体 中 的 少数 处 理 器 中 ， 而 
使 其 他 处 理 器 空 亲 。 在 第 一 次 分 裂 中 ， 这 是 最 有 害 的 。 在 顺序 快速 排序 算法 中 ,常常 选择 序 
列 中 的 第 一 个 数 作 枢 轴 ， 这 样 只 需 一 步 或 O(1) 的 时 间 复 杂 性 就 可 得 到 枢 轴 。 改 进 枢 轴 选择 的 
一 种 方法 是 : 从 序列 中 抽取 数 作 样 本 ， 计 算 其 平均 值 ， 并 选择 中 值 作为 枢 轴 。 如 果 选 择 中 值 
作为 酌 轴 ， 那 么 这 些 取样 数 必 须 至 少 进行 一 次 半 排 序 以 找到 中 值 。 我 们 可 选择 一 个 遇 到 中 值 
就 会 终止 的 简易 冒 泡 算法 来 进行 此 项 工作 。 

4. 超 快 速 排序 

为 了 保持 每 个 处 理 器 中 数据 的 有 序 ， 另 一 个 版 本 的 超 立 方 体 快速 排序 算法 总 是 在 每 个 阶 
段 都 对 数 进行 排序 。 这 样 做 不 仅 使 每 步 的 枢 轴 选择 变 得 简单 ， 而 且 消 除了 最 后 的 排序 操作 。 
这 种 在 超 立方 体 上 的 快速 排序 称 为 超 快 速 排序 (hyperquicksort) [Wagar，1987]， 并 按照 以 下 
步 又 在 每 个 阶段 保持 数 有 序 。 


10.4 其 他 排序 算法 


我 们 在 本 章 开始 时 给 出 了 基于 比较 的 顺序 排序 算法 时 间 复 杂 性 的 下 限 O(nlogn) (确切 地 应 
是 Qlnlogn)， 但 我 们 一 直 使 用 大 O 记 号 )。 显 然 ， 基 于 比较 的 并 行 排序 算法 的 时 间 复 杂 性 , 在 使 
用 p 个 处 理 器 时 应 是 O((logn)/p)， 而 在 使 用 n 个 处 理 器 时 应 是 O(logn)。 事 实 上 ， 有 些 排序 算法 
能 获得 好 于 O(nlogn) 的 顺序 时 间 的 复杂 性 ， 因 此 它们 是 并 行 化 的 很 有 吸引 力 的 候选 者 ， 但 它 
们 党 假设 被 排序 的 数 具 有 特殊 性 。 不 过 首先 让 我 们 考虑 一 种 秩 排 序 算法 ， 它 虽然 达 不 到 
Onlogn) 的 顺序 时 间 ， 但 很 容易 进行 并 行 化 ， 在 使 用 4 个 处 理 器 时 它 可 达到 O(n) 的 并 行 时 间 复 
杂 性 ， 而 在 使 用 忆 个 处 理 器 时 可 达到 O(logn)， 并 启发 我 们 对 线性 顺序 时 间 算 法 进行 并 行 化 以 


325 


Le] 
CN 





248 。 钉 二 瘟 分 瘟 法 和 应 肝 


达到 O(logn ) 的 并 行 时 间 ， 对 机 群 来 讲 这 是 很 具 吸 引力 的 算法 。 
10.4.1 秩 排 序 


在 秩 排序 (也 称 为 枚 举 排序 ) 中 ， 人 们 统计 小 于 每 个 被 选 数 的 数 的 个 数 。 这 种 计数 提供 
了 所 选择 的 数 在 数字 序列 中 的 位 置 ， 即 在 序列 中 的 “ 秩 ”。 假 设 有 n 个 数 存放 在 一 个 数组 
a[0]…afn-1] 中 。 首 先 将 a[01] 读 出 并 与 其 他 数 a[1]，...，a[n-1] 进 行 比较 ， 记 录 小 于 
a[0] 的 数 的 个 数 ， 设 为 x-。 则 x 就 是 a[ 90] 在 排序 后 的 数组 中 的 位 置 ，a[0] 被 复制 到 排序 后 的 
数组 b[0]…b[n-1] 中 的 b[x]。 然 后 ， 读 出 a[1] 并 与 其 他 数 a[0], a[2], …, a[n-1] 比 
较 ， 依 此 类 推 。 如 果 顺 序 执行 的 话 将 一 个 数 与 其 他 n-1 个 数 进行 比较 至 少 需 要 n-1 步 。 对 全 部 
n 个 数 执行 此 操作 需要 n(n-1) 步 ， 因 此 总 的 顺序 排序 的 时 间 复 杂 性 为 O(n?) (这 不 是 一 个 好 
的 顺序 排序 算法 ! )。 实 际 的 顺序 代码 如 下 : 


for (i = 0; i <n; i++) { /* for each number */ 
x= 0; 
for (j = 0; j < n; j++) /* count number of numbers less than it */ 
if (a[i] > a[j]) x++; 
b[x] = a[lil]; /* copy number into correct place */ 


} 
在 两 个 foz 循 环 中 每 个 选 代 都 有 za 步 ， 但 如 果 该 数字 序列 中 存在 重复 的 数 那 么 上 述 代码 将 无 法 
正常 工作 ， 因 为 重复 的 数 将 放 在 已 排序 表 中 的 相同 位 置 ， 不 过 该 代码 很 容易 修改 成 能 处 理 存 
在 重复 的 数 的 情况 ， 如 下 所 示 : 


for (i = 0; i <n; i++) { /* for each number */ 
x= 0; 
for (了 = 0; j < ny j++) /* count number of numbers less than it */ 
if (afil > a[lj] || (aftil == a[j] && j < i)) x++; 
PbIX] = a[li}; /* Copy number into correct Place */ 


} 
该 代码 将 重复 的 数 按 它们 在 原来 序列 中 的 相同 次 序 存放 。 将 重复 的 数 以 它们 在 原始 序列 中 相同 
次 序 的 排序 算法 称 为 稳定 的 排序 算法 (stable sorting algorithms )。 以 下 为 简单 起 见 我 们 将 略 去 
处 理 重复 数 的 修改 代码 。 还 应 指出 的 是 ， 如 果 数 全 为 整数 ， 则 秩 排序 可 以 编码 成 能 达到 O_ (站 ) 
顺序 时 间 复 杂 性 的 形式 。 但 该 代码 需要 一 个 附加 的 数组 以 存放 数 的 每 个 可 能 值 。 我 们 将 在 名 
为 计算 排序 的 10.4.2 节 中 考虑 它 的 实现 。 

1. 使 用 mn 个 处 理 器 

假设 我 们 及 个 处 理 器 。 一 个 处 理 器 与 一 个 数 相关 联 ， 那 么 找到 一 个 数 在 排序 完成 后 的 数 
组 中 的 位 置 需要 O(n) 步 。 若 所 有 n 个 处 理 器 并 行进 行 操作 则 并 行 时 间 的 复杂 性 也 是 O(n)。 使 用 
forall 记 号 的 相关 代码 如 下 : 


forall (i = 0; i < n; i++) { /* for each number in parallel*/ 
xX=0; 
for (了 = 0; j < nr j++) /* Count number of nos less than it */ 


if (a[i] > a[j]) x++; 
b[x} = alil]; /* copy number into Correct Place */ 


} 
能 获得 线性 并 行 时 间 复 杂 性 O(n) 固 然 很 好 ， 但 车 有 更 多 处 理 器 时 ， 就 可 获得 更 好 的 时 间 


复杂 性 。 
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2 使 用 7m 个 处 理 器 

如 果 使 用 多 处 理 机 来 执行 一 个 数 与 多 个 数 的 比较 会 取得 更 好 的 效果 。 例 如 可 使 用 图 10-26 所 
示 的 结构 。 这 里 我 们 使 用 n-1 个 处 理 器 来 找 一 个 数 的 秩 ， 那 么 要 找到 n 个 数 的 秩 就 需要 n(n-1) 个 
即将 近 产 个 处 理 器 。 每 个 数 各 需要 一 个 计数 器 ， 在 图 10-26 中 ， 对 计数 器 实现 增 量 是 顺序 执行 的 且 
最 多 需要 n 步 (包括 初始 化 计数 器 的 一 步 )。 因 此 总 的 执行 步 数 为 1 + n (1 为 处 理 器 并 行 操作 时 间 )。 
为 减少 增 量 计数 器 的 步 数 ， 可 采用 如 图 10-27 所 示 的 树 形 结构 。 这 样 就 得 到 一 个 使 用 天 个 处 理 器 
的 O(logn) 排序 算法 。 这 种 方法 的 实际 处 理 器 效率 是 很 低 的 (具体 计算 也 留 作 习题 )。 在 并 行 计算 
的 理论 模型 中 ， 完 成 增 量 操作 和 将 它们 的 结果 组 合 起 来 只 需 一 步 。 在 这 种 模型 中 可 将 秩 排序 的 
时 间 复 杂 性 减 为 0(1)。O(1) 当 然 是 任何 求解 问题 下 限 ， 但 我 们 不 在 这 里 探讨 理论 模型 。 


a[ilar[0]afi]l afl] a[lij a[2] a[i] a[3] 


ali] al[lo] ali] aln-1] 


比较 人 /太一 一 





增 量 计数 器 , 工 





b[lx] = afil 
图 10-26 用 并 行 方法 找 秩 图 10-27 秩 计算 的 并 行 化 
已 经 提 及 用 n 个 处 理 器 或 用 w 个 处 理 器 可 以 以 O(n) 或 O(logn) 的 时 间 复 杂 性 分 别 完成 秩 排 
序 。 但 在 实际 的 应 用 中 ， 由 于 价格 过 高 不 会 使 用 妆 个 处 理 器 。 该 算法 需要 共享 对 数字 序列 的 
访问 ， 这 使 该 算法 最 适合 于 共享 存储 器 系统 。 该 算 主 进 程 
法 也 可 用 消息 传递 实现 ， 此 时 ， 一 个 主 进程 响应 来 
自从 进程 对 数字 的 请 求 ， 如 图 10-28 所 示 。 
当然 ， 我 们 可 以 通过 将 数 按 组 (每 组 mr 个 数 ) 
划分 来 减少 处 理 器 数 。 这 时 就 仅 需 n/m 个 处 理 器 来 完 
成 数组 的 排序 (不 对 比较 操作 并 行 化 )， 而 每 个 处 理 
器 所 执行 的 操作 数 乘 上 因子 站 。 这 种 数据 分 割 方法 


可 应 用 在 许多 排序 算法 中 ， 因为 通常 数 的 个 数 "远大 
于 可 用 的 处 理 器 数 。 图 10-28 使 用 主 从 进程 实现 秩 排序 


10.4.2 计数 排序 


如 果 要 排序 的 数 是 整数 ， 在 10.4.1 小 节 中 已 介绍 过 一 种 编写 秩 排序 算法 的 方法 ， 可 将 顺序 
时 间 复 杂 性 从 O(n?) 降 为 O(n)。[Coren, Leiserson, and Rivest，1990] 将 此 法 称 为 计数 排序 
(counting sort)。 计 数 排序 是 自然 的 稳定 排序 算法 ( 即 它 将 相同 的 数 按 它 们 在 原始 序列 中 所 出 
现 的 相同 次 序 来 存放 它们 )。 如 同 10.4.1 节 中 的 秩 排序 代码 ， 最 初 未 排序 的 数 存 放 在 数组 a[ ] ， 
而 最 后 已 排序 好 的 数 将 存放 在 数组 b[ ] 。 该 算法 使 用 了 一 个 附加 数组 c[ ] ， 该 数组 中 的 每 个 元 
素 对 应 于 数 的 一 个 可 能 值 。 假 设 整 数 的 取 值 范围 为 1 到 mx*， 则 数组 就 含有 元 素 c{ 11] 到 c[m]。 
现在 让 我 们 分 阶段 来 叙述 该 算法 。 
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首先 ， 用 c[ ] 来 保存 序列 的 直方 图 ， 即 每 个 数 的 个 数 。 这 可 用 以 下 代码 在 O04m) 时 间 内 完 
成 计算 : 
for (i = 1; i <= m; i++) 
cfil = 0; 
for (i = 1; i <= my i++) 
Cf[fafjl]++': 
算法 的 下 一 步 ， 通 过 在 数组 c[ ] 上 完成 前 绥 求 和 操作 ， 就 可 找到 小 于 每 个 数 的 数 的 个 数 。 
在 前 组 求 和 的 计算 中 ， 对 给 定 的 数 序列 aa，…，m-i， 将 计算 所 有 的 部 分 和 ( 即 xo; xo+ xi 加 二 
Xi + XX Xo+ x+ + Ji …)， 关 于 这 一 点 早 在 6.2.1 节 中 提 及 。 但 现在 的 前 级 求 和 计算 是 用 最 
初 保存 在 c[ ] 中 的 直方 图 在 Ol(m) 时 间 内 完成 的 ， 如 下 面 所 示 的 那样 : 
for (i = 2; i <= m; i++) 
c[i] = cfil + c[i-1]; 
算法 的 最 后 一 步 ， 用 O(n) 时 间 将 这 些 数 按 已 排序 好 的 次 序 放 到 c[ ] 中 ， 如 下 面 所 示 : 
for (i = 1; i <= n; i++) { 
blc[la[il}]] = alil; 
clalil]--; // done to ensure stable sorting 


} 
整个 代码 的 顺序 时 间 的 复杂 性 为 Om+n)。 在 某 些 应 用 中 如 果 m 与 4 线性 相关 ( 见 下 面 的 例子 )， 
则 代码 的 颇 序 时 间 复 杂 性 为 O(n)。 图 10-29 示 出 了 在 一 个 有 8 个 数 的 序列 上 进行 计数 排序 的 情 
况 。 图 中 突出 序列 中 第 一 个 数 的 移动 。 其 他 数 的 移动 按 类 似 方式 进行 。 


原始 序列 af] 


第 1 步 : 直方 图 c [0 
将 5 移动 到 位 置 6。 
然后 将 c[5] 减 1 


第 2 步 : 前 绥 和 c [] 





第 3 步 排序 b] 


最 终 已 排序 序列 
图 10-29 计数 排序 


计数 排序 并 行 化 可 使 用 前 缀 求 和 计算 的 并 行 化 版 本 ， 用 -1 个 处 理 器 时 需 0(logn) 时 间 
( 见 6.2.2 节 )。 最 后 的 排序 阶段 ， 用 p 个 处 理 器 时 需 时 O(n/p)， 而 用 n 个 处 理 器 简单 地 使 循环 体 
由 不 同 的 处 理 器 来 完成 ， 则 只 需 O(1) 时 间 。 
当 只 有 很 少 的 不 同 数 且 它们 全 是 整数 时 ， 计 数 排序 算法 是 一 个 非常 高 效 的 算法 。 在 下 一 小 节 
的 基数 排序 算法 中 ， 将 用 到 计数 排序 。 


10.4.3 基数 排序 
基数 排序 (radix sort) 假设 欲 排序 的 数 用 一 位 数字 表示 ， 如 2 进 制 数 和 10 进 制 数 。 数 字 表 
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示 值 ， 而 每 个 数字 的 位 置 指明 相应 的 权重 ( 即 用 什么 值 来 乘 ， 在 10 进 制 数 中 用 基 10，2 进 制 数 
中 用 基 2)。 位 置 是 从 最 低 有 效 位 向 最 高 有 效 位 排列 。 基 数 排序 从 最 低 有 效 位 开始 (不 是 直观 
上 的 从 最 高 有 效 位 开始 ) ， 并 按 它们 的 最 低 有 效 位 排序 。 此 后 ， 再 按 次 最 低 有 效 位 排序 ， 依 此 
类 推 ， 直 至 最 高 有 效 位 ， 此 时 序列 已 排 好 序 。 要 使 此 算法 能 正常 工作 ， 必 须 对 具有 相同 数字 
的 数 保持 数 的 次 序 ， 即 必须 使 用 一 个 稳定 的 排序 算法 。 

基数 排序 可 以 对 数 的 单个 数字 位 进行 ， 也 可 对 数字 位 组 进行 。 图 10-30 中 示 出 了 对 单个 10 
进 制 数字 位 进行 基数 排序 的 情况 。 在 图 10-31 中 示 出 的 则 是 对 单个 2 进 制 数字 位 进行 基数 排序 
的 情况 。 在 这 种 情况 下 ， 如 果 每 个 数 有 2 位 就 需要 2 个 阶段 。 应 注意 ， 已 保持 具有 相同 位 值 数 
(在 该 例 中 是 0 或 1) 的 次 序 。 通 常 基数 排序 在 每 一 阶段 对 2 进位 组 而 不 是 只 对 一 位 进行 排序 。 
一 般 而 言 ， 在 基数 排序 中 ， 对 5 位 2 进 制 数 可 通过 每 次 对 由 7r 个 数字 位 所 组 成 的 组 进行 排序 来 完 
成 ， 此 时 将 需 [5/] 个 阶段 。 基 数 排序 的 时 间 复 杂 性 将 依赖 于 每 一 阶段 的 排序 算法 ; 且 必 须 是 
一 个 稳定 的 排序 算法 。 当 给 定数 的 取 值 范围 较 小 时 ， 采 用 计数 排序 较为 合适 ， 但 它 不 是 唯一 
的 选择 ， 因 为 它 不 在 适当 的 位 置 排序 ( 即 当 数 被 排序 后 ， 它 需要 附加 的 存放 已 被 排序 数 的 存 
储 空间 )。 


按 最 低 有 效 数字 位 排序 按 最 高 有 效 数字 位 排序 
315 219 479 922 
219 649 863 863 
649 479 649 649 
479 315 632 632 
100 863 922 479 
922 922 219 315 
863 632 315 一 一 219 
632 100 100 100 








图 10-30 用 10 进 制 数 进行 基数 排序 


假设 在 基数 排序 中 使 用 计数 排序 。 如 在 10.4.2 池 所 提 及 的 那样 ， 在 "个 整数 上 (每 个 整数 
的 取 值 范围 为 1 到 m) 计数 排序 的 顺序 时 间 复 杂 性 为 O (m + n)。 给 定位 的 数 ， 取 值 范 围 从 1 到 


2-1。 共 有 [5b/r] 阶 段 ， 其 中 所 有 数 都 是 bp 位 。 因 此 ， 上 顺序 时 间 的 复杂 性 为 O (bfr(n +27) )。 如 


果 b 和 /是 常数 ?， 则 顺序 时 间 的 复杂 性 为 O(n)， 即 仍 是 线性 时 间 复 杂 性 。 

基数 排序 可 以 通过 在 每 个 阶段 对 位 或 位 组 使 用 并 行 排序 算法 来 并 行 化 。 我 们 已 提 及 用 前 绥 
求 和 计算 来 并 行 化 计数 排序 ， 用 n-1 个 处 理 器 且 bp 和 /为 常数 时 需 时 O(logn)。[Bader and Ji 对， 
1999] 在 他 们 的 SMP 机 群 程序 设计 的 研究 中 ， 采 用 了 带 计 数 排序 的 基数 排序 。 

以 图 10-31 中 的 对 2 进 制 数字 ( 即 r = 1) 的 排序 例子 来 讲 ， 较 明智 的 并 行 化 基数 排序 的 方 
法 是 ， 在 每 一 阶段 用 前 级 求 和 计算 来 定位 每 个 数 。 当 对 一 位 列 中 的 (2 进 ) 位 进行 前 组 求 和 计 
算 时 ， 它 使 1 的 个 数 等 于 每 个 数字 位 的 位 置 ， 因 为 数字 位 只 能 为 0 或 1， 且 前 缀 计算 将 只 是 简单 
地 加 1 的 个 数 。 第 2 个 前 级 计算 将 使 0 的 个 数 等 于 每 个 数字 位 的 位 置 ， 这 是 通过 逆向 的 对 数字 位 
进行 前 缀 计算 来 完成 的 《有 时 称 为 减少 前 组 求 和 计算 ，diminished prefix-sum calculation )。 在 
被 考察 的 数 的 数字 位 为 0 时 ， 减 少 前 缀 计算 将 为 该 数 提供 新 的 位 置 。 若 数字 位 为 1， 则 通常 的 


日 ”在 n 和 wb 之 间 存 在 某 种 关系 。 假 设 无 重复 的 数 ， 则 有 n< 2 ， 即 > logzn。 然 而 ， 计 算 机 运算 时 ， 通 常用 固定 
位 数 来 表示 数 而 不 论 有 多 少 个 数 。 


Pt 


252 和 二 亏 分 蔓 法 和 应 用 











前 缀 求 和 计算 加 上 最 大 的 减少 前 级 求 和 计算 的 结果 将 为 该 数 确 定 最 后 的 位 置 。 例 如 ， 如 果 所 
考察 的 数 有 一 个 1 ， 以 及 四 个 为 0 的 数 加 上 前 面 两 个 为 1 的 数 ， 减 少 前 缀 计算 给 定 4， 加 上 常规 
前 组 求 和 计算 给 定 3， 就 使 该 数 定位 在 7 的 位 置 (从 位 置 1 开始 计数 )。 显 然 ， 当 用 n-1 个 处 理 器 
时 也 将 导致 O(logn) 时 间 ， 但 当 r = 1 时 ， 它 需要 4 个 阶段 。 








按 最 低 有 效 位 排序 按 最 高 有 效 位 排序 
6 110 011 011 111 
3 011 111 ——————111l 110 
7 111 001 110 101 
1 001 101 #010 100 
5 101 110 001 011 
0 -000 一 一 一 > 000 101 010 
2 010 010 000 001 
4 100 100 100 000 








图 10-31 用 2 进 制 数 进行 基数 排序 


10.4.4 采样 排序 


如 间 其 他 许多 基本 的 排序 想法 一 样 ， 采样 排序 是 一 个 老 概念 [Frazer and McKellar，1970]。 
在 叙述 快速 排序 和 桶 排序 时 ， 已 对 采样 排序 进行 了 讨论 。 在 快速 排序 环境 下 ， 采 样 排序 从 个 
数 的 序列 中 采样 ;个 数 的 一 个 样本 。 将 该 样本 的 平均 值 作为 第 1 个 枢 轴 把 序列 分 成 两 部 分 ， 这 
是 快 速 排序 算 共 所 需 的 第 一 步 ， 而 不 是 通常 序列 中 的 第 一 个 数 。 为 了 加 速 ， 后 续 步 所 需 的 所 
有 枢 轴 可 同时 求 得 。 例 如 ， 上 下 两 个 四 分 点 可 作为 前 两 个 后 续 子 序 列 的 枢 轴 使 用 。 这 一 方法 
存在 这 样 一 个 问题 ， 即 差 的 枢 轴 选择 在 快速 排序 中 将 造成 不 平均 的 序列 划分 。 

采样 排序 也 可 用 于 桶 排序 ， 如 在 4.2 节 中 所 令 述 的 那样 。 桶 排序 的 基本 问题 与 快速 排序 中 
的 一 样 :不 平均 的 划分 序列 。 在 桶 排序 中 ， 如 果 数 不 是 相等 分 布 的 ， 则 较 多 的 数 会 落 入 其 此 
崩 中 。 在 最 坏 的 情况 下 ， 所 有 的 数 会 落 人 一 个 桶 中 ， 从 而 使 原本 可 能 的 线性 顺序 时 间 复 杂 性 
过 化 成 用 比较 排序 算法 对 个 数 进行 排序 即 O(nlogn) )。 其 根本 问题 是 在 于 ， 每 个 桶 的 数 的 
范围 是 固定 的 且 是 通过 将 整个 数 的 范围 划分 成 相等 区 域 加 以 选择 的 。 

采样 排序 的 目的 在 于 在 划分 数 的 范围 时 ， 使 得 每 个 桶 拥有 大 至 相同 的 数 的 个 数 。 为 做 到 
这 一 点 采用 了 如 下 的 采样 方案 ， 即 从 n 个 数 的 序列 中 ， 挑 出 一 些 数 作为 分 列 数 ， 再 由 这 些 分 区 
数 来 定义 每 个 桶 的 数 的 范围 。 如 有 加 个 桶 ， 则 就 需 m~1 个 分 裂 数 。 这 些 分 裂 数 可 用 下 述 方法 找 
到 。 首 先 ， 将 欲 排 序 的 数 分 成 wm 个 组 。 对 每 个 组 进行 排序 ， 并 从 每 个 组 选择 s 个 具有 相等 空 
辣 间 随 的 数 作为 一 次 采样 。 这 将 产生 总 数 为 ms 个 的 采样 ， 然 后 对 它们 排序 ， 而 将 m1 个 具有 
电 竺 问 隔 的 数 选 为 分 型 数 。 图 10-32 中 示 出 了 选择 这 些 分 型 数 的 方法 。 在 分 列 数 对 每 个 彬 的 区 
悦 设 定 后 ， 算 法 将 以 桶 排序 的 方式 继续 进行 排序 〔 对 桶 进行 排序 ， 并 将 结果 拼接 ) 

方法 可 用 与 桶 排序 几乎 相同 的 办 法 进行 并 行 化 ， 即 为 每 个 处 理 器 分 配 一 个 有 nj 个 数 的 
组 ,以 及 一 个 桶 (p = mm)。 将 mp 个 数 送 到 一 个 处 理 器 进行 排序 ， 当 然 也 存在 其 他 方法 。s 的 
信 越 大 ， 则 在 最 后 的 分 裂 数 中 所 使 用 的 数 的 个 数 就 越 多 。 如 果 s = m-1， 则 在 任何 个 李 遇 的 
数 的 个 数 将 小 于 2n/m。 在 所 叙述 的 采样 排序 中 ， 还 有 一 些 变 形 ， 在 这 些 方法 中 利用 规整 的 信 
全 操作 进行 高 过 度 采样 、 以 在 机 群 上 获得 上 好 的 性 能 (参见 [Helman,Bader and J4J4，1998]) 





条 10 葛 天 序 浊 法 253 


n 个 数 





n/m 个 数 


排序 排序 


已 排序 的 n/m 个 数 已 排序 的 n/m 个 数 





采样 ;个 等 间 
隔 的 数 


选择 m-1 个 等 间隔 的 数 作 为 分 裂 数 
图 10-32 在 桶 排序 的 采样 排序 版 本 中 选择 分 裂 数 


10.4.5 在 机 群 上 实现 排序 算法 


想 在 机 群 上 实现 高 效 的 排序 算法 、 要求 使 用 在 MPI 那 样 的 消息 传递 软件 中 所 提供 的 广播 以 
及 其 他 的 集合 操作 ， 如 集中 、 分 散 和 归 约 ， 而 不 是 那 种 需要 点 对 点 通信 的 非 一 致 通信 模式 ， 
因为 集合 操作 能 高 效 地 实现 。 机 群 的 分 布 式 存储 器 不 适合 需要 访问 非常 分 散 存储 的 数据 的 那 
类 算法 。 只 需 进 行 本 地 操作 的 算法 是 为 更 好 ， 纵 然 在 最 坏 情况 下 ， 所 有 排序 算法 在 最 后 不 得 
不 将 数 从 序列 的 一 端 移动 到 另 一 端 。 

处 理 器 总 是 具有 高 速 缓 存 ， 因 此 好 的 算法 应 对 存放 在 高 速 缓存 的 数字 块 进行 操作 。 其 结 
果 是 ， 我 们 需要 知晓 高 速 缓 存 的 大 小 和 组 成 ， 而 且 这 必须 成 为 算法 参数 的 一 部 分 。 最 后 ， 随 
着 SMP 处 理 器 机 群 《SMP 机群) 的 出 现 ， 算 法 需要 考虑 在 每 个 SMP 系 统 中 的 处 理 器 组 内 可 能 
以 共享 存储 器 方式 运行 ， 但 其 中 的 共享 存储 器 只 存在 于 每 个 SMP 系 统 中 ; 而 机 群 中 各 个 SMP 
系统 间 的 通信 则 需 以 消息 传递 的 方式 运行 。 考 虑 到 这 一 点 就 需 把 每 个 SMP 系 统 中 的 处 理 器 数 
以 及 每 个 SMP 系 统 中 的 存储 器 大 小 也 作为 算法 的 参数 。 在 [Bader and J4J]4，1999] 中 可 找到 有 
关 在 SMP 系 统 上 使 用 的 算法 的 更 多 信息 。 


10.5 小 结 


本 章 讨论 了 一 些 使 用 多 处 理 机 的 排序 方法 。 我 们 从 基于 比较 且 顺 序 实现 的 排序 算法 开始 ， 
说 明 其 下 限 是 O(nlogn) 以 及 用 n 个 处 理 器 并 行 实现 时 是 O(logn)。 然 后 我 们 讨论 了 比较 和 交换 操 
作 和 排序 算法 : 
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“ 冒 泡 排序 
。 奇偶 互 换 排序 
* 归并 排序 
“ 快速 排序 ， 包 括 超 立方 体 上 的 快速 排序 
* 奇偶 归并 排序 
* 双 调 谐 妇 并 排序 
接着 我 们 简要 地 观察 了 利用 特定 互联 网 络 的 一 些 有 代表 性 的 排序 算法 : 
“ 扭曲 排序 〈 在 网 格 上 ) 


* 在 超 立 方 体 上 的 快速 排序 
最 后 ， 我 们 探讨 了 不 使 用 比较 和 交换 操作 的 啡 序 算法 : 
“ 秩 排序 
* 只 适用 于 整数 的 计数 排序 
以 及 并 行 化 后 能 获得 较 高 并 行 性 能 的 算法 : 
“ 基数 排序 
“采样 排序 
推荐 读物 


有 非常 多 的 排序 算法 及 其 变形 在 本 章 中 没有 涉及 。 我 们 选择 的 是 最 常用 、 最 县 技术 代表 
性 或 具有 并 行 化 潜力 的 那些 排序 算法 。[ Richards ，1986 ] 提 供 了 一 份 有 373 篇 关于 并 行 排序 论 
文 的 清单 (到 20 世 纪 80 年 代 早 期 为 止 )。[ Akl，1985 ] 也 撰写 了 一 本 关于 并 行 排序 算法 的 专著 。 
此 后 涉及 到 排序 算法 的 论文 包括 [ Blackston and Ranade，1993]、[ Bolorforoush et al.，1992]。 
在 已 出 版 的 有 关 并 行 排序 的 概述 文章 中 ， 著 名 的 有 [ Bitton et al.，1984 ] 和 [ Lakshmivarahan， 
Dhall，and Miller，1984 ]， 后 者 完全 关注 于 排序 网 络 。 

在 此 第 2 版 中 ， 我 们 对 内 容 作 了 重新 排序 ， 并 增加 了 两 个 著名 的 排序 算法 ， 基 数 排 序 和 采 
样 排序 。 由 于 这 两 个 算法 是 在 机 群 ， 特 别 是 SMP 机 群 ， 上 进行 排序 的 基础 ， 故 近来 备 受 关注 ， 
尽管 由 于 复杂 性 的 原因 本 书 覆 去 了 机 群 实现 的 全 部 细节 。 更 多 的 细节 可 在 [Helman, Bader, and 
JiJi&，1998] 中 找到 。[ Shi and Schaeffer, 1992 ] 描 述 了 采样 排序 。 
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习题 


9 


科学 /数值 习题 


10-1 重 写 10.2.1 节 中 的 比较 和 交换 操作 代码 ， 以 在 不 需要 交换 时 取消 消息 传递 。 

10-2 实现 10.2.1 节 中 提 到 的 两 个 比较 和 交换 操作 的 方法 ( 即 版 本 1 和 版 本 2)， 每 个 数据 块 有 4 
个 数 ， 并 测量 两 种 方法 的 性 能 。 设 计 一 个 例子 以 证 明 当 蜡 构 系统 中 计算 机 之 间 存 在 不 
同 计算 精度 时 ， 可 能 得 到 错误 的 结果 。 

10-3 根据 10.4.1 节 所 描述 的 基于 秩 排序 确定 O (logn) 算 法 的 处 理 器 的 效率 。 

10-4 [Fox et al.，1988] 提 出 了 一 个 进行 比较 和 交换 的 方法 ， 在 这 个 方法 中 各 个 数 在 两 个 处 理 
器 ( 记 为 Pe、P1) 之 间 交 换 ， 假 设 每 个 处 理 器 中 每 一 个 组 有 4 个 数 。 处 理 器 Po 将 自己 组 
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10-5 
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中 最 大 的 数 发 送 到 P!， 而 处 理 器 P! 将 自己 组 中 最 小 的 数 发 送 到 处 理 器 Po。。 然 后 每 个 处 理 
器 各 自 将 收 到 的 数 插入 到 自己 的 组 中 ， 因 此 两 者 依然 
还 有 n/p 个 数 ， 按 着 以 新 的 最 大 数 和 最 小 数 重复 上 述 
过 程 。 车 使 用 带 有 指向 序列 顶 或 序列 底 的 指针 的 队列 ， 
该 算法 的 实现 是 最 方便 的 ， 如 图 10-33 所 示 。 在 图 10- 
33 中 当 插 入 操作 都 发 生 在 序列 顶 或 序列 底 时 ， 算 法 终 
止 。 算 法 初始 时 若 左边 序列 的 所 有 数 都 大 于 其 他 组 中 第 2 步 
的 所 有 数 时 ， 通 信步 数 最 大 (每 组 有 x 个 数 时 最 大 是 x 

步 )。 编 写 一 个 程序 实现 Fox 的 方法 ， 并 和 本 书 中 描述 

的 其 他 算法 进行 比较 来 评估 这 一 方法 。 第 3 步 
以 下 代码 为 一 SPMD 程 序 ， 试图 完成 10.2.2 节 中 提 到 
的 奇偶 互 换 排 序 ， 请 判断 这 段 代 码 是 否 正确 ， 若 不 正 
确 请 加 以 改正 。 


第 ! 步 





当 插 入 操作 在 序列 顶 / 底 时 终止 
图 10-33 习题 10-4 的 比较 和 交换 算法 


进程 忆 
evenprocess = (i % 2 == 0); 
evenphase = 1; 
for (step = 0; step < n; stept++, evenphase = !evenphase){ 
if ((evenphase && evenprocess) || (!evenphase) && !evenprocess)) { 


send (&a, Pi+1); 

recv(&x, Pir1); 

if (x<a)a=x; . /* keep smaller number */ 

else { 

send (&a, Pi1); 

recv (&x, PiL1); 

if (x > a)a=x; /* keep larger number */ 
} 

} 


10.2.2 节 中 描述 的 奇偶 互 换 排 序 有 一 个 前 提 条 件 ， 即 待 排序 数 的 个 数 和 处 理 器 数 均 为 偶 
数 。 如 果 待 排序 数 的 个 数 和 处 理 器 数 均 为 奇数 时 ， 应 该 如 何 更 改 代码 ? 

证 明 10.3.1 节 中 提 到 的 在 Vn x yn 数组 中 进行 转 置 操作 需要 Va(Vn -1] 次 通信 。 
编写 一 个 并 行程 序 来 实现 扭曲 排序 。 

编写 一 个 并 行程 序 找 出 一 组 数字 中 第 个 最 小 的 数 。 使 用 快速 排序 的 并 行 版 本 但 仅 应 用 
于 含有 第 k 个 最 小 的 数 的 一 组 数 。 本 习题 的 进一步 讨论 参见 [Cormen ，Leiserson and 
Rivest，1990] 。 


Ce] 


10-10 为 了 提高 顺序 快速 排序 的 性 能 ， 人 们 提出 了 很 多 建议 (参见 [Wainwright，1985] 以 及 


10-11 


其 中 的 参考 文献 )。 以 下 是 该 文 提 到 的 两 个 建议 : 

1) 不 选 第 一 个 数 做 枢 轴 ， 而 是 从 随机 抽取 3 个 数 中 取 中 值 作为 枢 轴 ， 即 “三 者 取 中 ” 
(“median-of-three” 技 术 )。 

2) 使 用 第 一 个 数 作 枢 轴 最 初 的 一 一 组 数 被 分 割 成 两 部 分 ， 在 其 他 数 与 枢 轴 进 行 比较 的 同 
时 计算 两 部 分 的 每 一 部 分 中 的 数字 和 ， 根 据 和 值得 到 每 部 分 数据 的 平均 值 。 将 每 部 
分 数据 的 平均 值 作 为 下 一 分 割 阶段 的 枢 轴 ， 计 算 两 个 平均 值 的 过 程 在 下 一 个 枢 轴 的 
后 续 步 骤 中 完成 。 这 个 算法 称 为 平均 排序 算法 (meansort algorithm ) 。 
根据 经 验 ， 展 望 一 下 并 行 化 上 述 两 个 方法 的 前 景 。 

使 用 10.2.6 节 中 描述 的 并 行 超 立 方 体 画 出 四 维 超 立 方 体 的 数 交 换 过 程 ， 以 伐 人 式 环 的 





荔 10 介 帮 访 第 法 257 


次 序 保留 结果 ， 并 据 此 得 出 适用 于 任意 规模 超 立方 体 的 通用 算法 。 

10-12 画 出 构成 10.2.5 节 中 所 描述 的 奇偶 归并 排序 算法 的 比较 和 交换 电路 排列 (针对 16 个 数 )。 
使 用 奇偶 归并 排序 算法 ， 手 工 对 以 下 序列 进行 排序 : 

12211491101557143813616 

10-13 对 双 调 谐 归并 排序 重 做 习题 10-12。 

10-14 比较 Batcher 的 奇偶 归并 排序 算法 (10.2.5 节 ) 和 他 的 双 调 谐 归 并 排序 算法 (10.2.6 节 )， 
并 估计 在 消息 传递 的 多 计算 机 系统 中 它们 并 行 实现 的 相对 优越 性 。 

10-15 证 明 使 用 n 个 处 理 器 的 奇偶 轨 并 排序 算法 的 时 间 复 杂 性 为 O(log2n)。 

10-16 试 识别 在 第 10 章 中 哪些 排序 算法 是 就 地 (in place) 操作 的 ( 即 在 它们 排序 数 时 不 需 
要 使 用 附加 的 存储 区 )。 就 地 算法 将 减少 存储 需求 ， 这 一 因素 在 排序 大 量 数 时 可 能 非 
常 重要 。 

10-17 讨论 如 果 是 从 最 高 有 效 位 到 最 低 有 效 位 进行 排序 操作 ， 基 数 排序 能 否 工作 ? 

10-18 用 MPI 实 现 两 个 排序 算法 并 比较 它们 的 性 能 。 

10-19 阅读 [Helman，Bader，and J4J4，1998 ] 所 写 的 论文 ， 并 用 MPI 实 现 他 们 的 排序 算法 。 


现实 生活 习题 


10-20 Fred 有 52 张 完全 打 乱 的 扑克 牌 ， 他 请 你 确定 关于 重新 排列 它们 的 几 个 问题 : 

1) 给 定 扑克 有 四 种 花色 ( 黑 桃 、 红 桃 、 草 花 和 方块 )， 则 用 双 调 谐 轨 并 排序 算法 对 扑 
克 牌 进行 排序 时 应 对 该 算法 做 怎样 的 改动 ? 

2) Fred 至 少 要 邀请 多 少 朋友 来 并 行 执行 更 改 后 的 双 调 谐 妇 并 排序 ， 每 个 朋友 要 执行 
多 少 步 ? 

10-21 找 出 两 个 文件 中 相 匹 配 内 容 的 一 种 方法 是 将 文件 中 的 内 容 先 进行 排序 然后 进行 项 比较 ; 
男 一 种 方法 是 不 对 文件 内 容 进 行 排序 而 是 简单 地 直接 进行 逐 项 比较 。 请 对 比 这 两 种 方法 ， 
并 根据 第 一 种 方法 编写 一 个 并 行程 序 来 找 出 两 个 文件 中 相 匹 配 的 项 。 

10-22 使 用 排序 算法 可 以 生成 输入 序列 的 任意 变换 ， 这 只 要 将 输入 元 素 按 所 需 次 序 编号 ， 并 
按 编 号 对 其 排序 即 可 。 编写 一 个 并 行程 序 随机 化 文档 文件 的 内 容 来 保护 文件 的 安全 性 ， 
首先 使 用 随机 数 生成 器 将 文件 中 的 字 编 号 ， 然 后 对 这 些 随 机 数 进行 排序 。( 有 关 随 机 
数 的 细节 参见 第 3 章 。) 请 问 这 是 不 是 加 密 文件 的 好 方法 ”再 编写 一 个 并 行程 序 将 此 文 
档 文件 恢复 成 它 原始 状态 。 
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第 11 章 数值 算法 


在 本 章 中 ,我 们 研究 几 个 重要 的 数值 问题 : 

“ 矩阵 相 乘 

* 用 直接 法 求解 一 般 线性 方程 组 

* 用 迭代 方法 求解 稀 政 线性 方程 组 和 偏 微分 方程 组 

在 前 面 几 章 中 描述 具体 的 并 行程 序 设计 技术 时 ， 我 们 已 经 介绍 了 解决 这 些 问题 的 一 些 方 
法 。 在 本 章 中 ， 我 们 将 更 详细 的 描述 这 些 方法 ， 并 且 还 将 介绍 一 些 其 他 的 程序 设计 方法 。 


11.1 和 托 阵 回顾 





列 

许多 科学 问题 的 基础 都 是 矩阵 。 让 我 们 回顾 一 下 算 aoo a01 ------ aom-z aom-1 
阵 的 数学 概念 ， 算 阵 是 一 些 数 (或 代表 数 的 变量 ) 的 二 ao al ------ am- Alm 
维 数组 。 一 个 n x m 的 和 矩阵 有 n 行 各 列 元 素 ， 一 个 nxm 1 ! ! ' 
的 矩阵 4 ， 如 图 11-1 所 示 。 我 们 在 顺序 程序 设计 中 已 经 和 | | 1 | | 
知道 这 种 结构 可 以 用 二 维 数组 表示 ， 并 且 通 常用 数组 来 ! ' 2 
人 er 
11.1.1 和 矩阵 相 加 


算 阵 相 加 就 是 简单 地 将 每 个 矩阵 的 对 应 元 素 加 起 来 形成 一 个 结果 气 阵 。 将 矩阵 4 的 元 素 
记 为 ai;， 和 矩阵 B 的 元 素 记 为 bi,;， 则 和 矩阵 C 的 元 素 被 计算 为 : 
Ci 二 Cj 十 bi,; 
(Oi<n,0<j<m) 


11.1.2 和 抵 阵 相 乘 
两 矩阵 和 4 和 B 相 乘 ， 乘 积 C 的 元 素 ci;(0<i<n, 0<j<m) 可 由 下 式 计算 得 到 : 


1-1 


Ci = > Qik } 


其 中 ，A4 是 n x ! 和 矩阵 ，B 是 1x m 和 矩阵 。 和 矩阵 4 第 i 行 的 每 个 元 素 与 矩阵 B 第 j 列 的 各 元 素 分 别 相 
乘 ， 并 将 乘积 相 加 得 到 和 矩阵 C 的 第 ; 行 第 ] 列 的 一 个 元 素 ci ;， 如 图 11-2 所 示 。 甜 阵 4 的 列 数 必须 
与 拭 阵 B 的 行 数 相同 ， 但 矩阵 的 大 小 可 以 不 同 。 和 矩阵 也 可 以 与 常数 相 乘 (即将 矩阵 的 所 有 元 
素 都 与 该 常数 相 乘 )。 








图 11-2 和 矩阵 相 乘 C=A4xB 
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11.1.3 和 矩阵- 向量 相 乘 


向 量 是 一 个 列 数 为 1 的 矩阵 ( 即 是 一 个 n x 1 矩阵 )。 如 果 规 定 矩 阵 -和 拢 阵 乘法 的 定义 中 的 托 
阵 B 是 一 个 n x 1 和 拒 阵 ， 便 得 到 矩阵 -向 量 乘法 的 定义 。 相 乘 的 结果 是 一 个 ax 1 和 矩阵， 如 图 11-3 


所 示 。 相 反 ， 向 量 4 也 可 以 只 有 1 行 ( 即 1 x n 和 矩阵 )， 而 矩阵 B 是 一 个 nx m 和 矩阵 ， 向 量 ~ 和 矩阵 乘 ”B 红 
法 便 得 到 一 个 1 x m 和 矩阵 (向量 )。 
A x b = C 
行 和 
图 11-3 和 矩阵 -向 量 相 乘 c=A4xb 
11.1.4 和 矩阵 与 线性 方程 组 的 关系 

在 描述 工程 、 商 业 和 科学 领域 中 的 日 常 问 题 的 数学 公式 中 ， 经 常会 遇 到 矩阵。 在 6.3.1 节 
中 所 描述 的 线性 方程 组 可 写成 如 下 的 矩阵 形式 : 

Ax=b ' 

4 是 一 个 含有 常数 a 的 矩阵 ，x 是 一 个 未 知 向 量 ，2 是 一 个 常数 b 向 量 。 抢 阵 乘 法 可 用 来 变换 
线性 方程 组 [Kreyszig, 1962]。 和 矩阵 和 和 矩阵 运算 可 以 出 现在 其 他 情况 中 。 例 如 ， 它 可 以 用 来 寻 
找 图 中 两 个 顶点 间 的 最 短路 径 。 

11.2 和 抵 阵 乘法 的 实现 
11.2.1 算法 

1. 顺序 代码 

为 方便 起 见 ， 我 们 总 是 假设 矩阵 是 一 个 n x z 方 阵 。 根 据 上 述 和 矩阵 相 乘 的 定义 ， 计 算 4 xB 
的 顺序 代码 可 简单 地 表示 为 : 

for (i = 0; i < n; i++) 

for (] = 0; j <n; j++) { 
cfil[Jj] = 0; 
for (Kk = 0; k < n; k++) 
c[i}[j] = clij[j] + afi]l[kl * p(x) [ij]; 
} 
这 个 算法 需要 进行 mw 次 乘法 运算 和 mw 次 加 法 运算 ， 顺序 时 间 的 复杂 性 为 O (2 )。( 为 了 提高 计 
算 效率 ， 可 以 用 临时 变量 sum 代 亚 c[i] [j] ， 这 样 在 内 层 for 循 环 的 每 一 次 迭代 中 就 不 必 进 
行 地 址 计算 了 。) 
2. 并 行 代码 
342 


并 行 矩 阵 乘法 通常 直接 基于 顺序 矩阵 相 乘 算法 。 只 要 粗略 地 观察 一 下 顺序 代码 ， 便 可 以 发 
现 两 个 外 层 循环 的 每 一 次 迭代 不 依赖 于 其 他 任何 迭代 ， 并 且 内 层 循 环 的 各 个 步骤 可 以 并 行 执 
行 。 因此 ， 当 用 p = n 个 处 理 器 进行 4 x "矩阵 乘法 时 ， 可 容易 地 获得 并 行 时 间 的 复杂 性 为 (x?)。 
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当 用 p = 忆 个 处 理 器 时 ， 可 容易 地 获得 并 行 时 间 的 复杂 性 为 O(n)。 这 时 ， 一 台 处 理 器 只 分 得 4 
和 B 的 一 个 元 素 。 这 些 实现 是 代价 最 优 的 (因为 O (e) = nx0O 02 = 怠 x O(n))。 正 如 我 们 将 要 
说 明 的 那样 ， 当 用 p = w 个 处 理 器 时 ， 通 过 并 行 化 内 层 循环 ， 可 以 获得 O(logn) 的 时 间 复 杂 性 ， 
虽然 这 种 实现 不 是 代价 最 优 的 [因为 O(m) 直 mx O(logn)]。 根 据 [Moldovan，1993]O(logn) 实 际 
上 是 并 行 矩 阵 相 乘 时 间 复 杂 性 的 下 界 。 这 里 所 引用 的 时 间 复 杂 性 是 仅 就 计算 而 言 的 。 但 不 幸 
的 是 ， 任 何 额外 的 通信 开销 都 是 非常 显著 的 。 

划分 成 子 算 阵 ” 通常， 我 们 希望 对 n x n 和 矩阵 所 使 用 的 处 理 器 数目 远 小 于 n。 因 此 ， 每 个 处 
理 器 要 操作 一 组 数据 点 (数据 划分 )。 甜 阵 乘 法 可 以 很 容易 地 处 理 数据 划分 ,每 一 个 矩阵 都 可 
以 分 成 若干 元 素 块 ， 称 为 子 和 矩阵， 这 些 子 矩 阵 作为 单个 的 斥 阵 元 素 参 加 运算 (参见 [Fox et al.， 
1988] )。 假 设 和 撼 阵 被 分 成 9? 个 子 和 矩阵 〈 行 * 等 分 ， 列 8 等 分 ) ， 每 个 子 矩阵 有 ms x ns 个 元 素 ， 若 
记 m = n/s， 则 称 为 有 m x 个 元 素 。 用 ae,s 表 示 第 2 行 第 4g 列 的 子 矩 阵 ， 我 们 简单 地 用 矩阵 乘法 
替换 前 面 代码 中 的 内 部 求 和 运算 ; 即 : 

for (p= 0; p< s; P++) 

for (q= 0; q< s; q++) { 


Cp,ga = 0; /* clear elements of submatrix */ 
for (r= 0;r < m; I++) /* submtrix mltiplication and */ 
Cp,q = Cp,q + Mp,r * Br,a; /* add to accumulating submatrix */ 


其 中 
Cp,q = Cpq + Mp,r * Br,q; 


表示 利用 矩阵 乘法 操作 将 子 矩 阵 Ap,: 和 Bz,4 相 乘 ， 再 利用 矩阵 加 法 操作 将 乘积 累加 到 子 和 矩阵 
Cp,s 上 。 事 实 上 ， 内 层 循环 包括 加 循环 。 这 种 方法 便 是 众所周知 的 块 息 阵 乘法 ， 当 处 理 器 数目 
少 于 n 时 ,该 方法 是 所 有 并 行 实现 的 核心 。 块 矩阵 乘法 如 图 11-4 所 示 。 注 意 到 子 和 矩阵 相 加 只 是 
简单 将 两 个 子 矩 阵 的 对 应 元 素 相 加 ， 得 到 结果 子 矩 阵 的 相应 元 素 。 图 11-5 表 示 两 个 4x 4 矩阵 ， 
被 划分 成 4 个 2 x 2 子 矩 阵 ， 这 种 结构 实际 上 上 暗示 了 一 个 递归 解 。 但 还 有 一 些 实现 矩阵 相 乘 的 不 
同 算法 。 





图 11-4 块 阜 阵 乘法 


11.2.2 直接 实现 


一 种 实现 撼 阵 乘法 的 方法 就 是 ， 用 一 台 处 理 器 计算 C 的 一 个 元 素 ， 这 就 需要 心 个 处 理 器 ， 
且 每 台 处 理 器 分 得 矩阵 4 的 一 行 元 素 和 矩阵 下 的 一 列 元 素 ， 如 图 11-6 所 示 。 使 用 主 从 方法 ， 这 
些 元 素 从 主 处 理 器 发 往 选择 的 从 处 理 器 。 注 意 ， 一 些 相同 的 元 素 必 需 被 发 往 多 个 处 理 器 。 利 
用 子 和 矩阵 ， 一 台 处 理 器 将 计算 C 的 一 个 m x m 子 矩阵 。 
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aooboo + ao1p10 aoobol + aoib11 ao2b20 + 003bp30 a02b21 + a03b31 
十 


aioboo+ aiibio arobo + a1ibin al12b20 二 al3b30 a1zb21 + a13b3l 


网 + aonbio + ao2b20 + ao3b30 a0oboi + aoib11 + ao2Db2.1 + ”| 


aioboo + anibio + a12b20 + aisb30 aiobo + Anbus + a12b21 + a13b3 


= Coo 
b) ho.o x Bo.o 得 到 Co.o 
图 11-5 子 和 矩阵 乘法 
1. 分 析 . 
(1) 通信 ”我 们 先 假设 n x n 算 阵 而 不 是 子 和 矩阵 ( 子 矩 阵 将 在 稍 后 考虑 )。 通 过 独立 的 消息 


将 数据 分 发 到 je 台 从 处 理 器 上 ， 则 每 台 处 理 器 收 到 一 行 


和 一 列 元 素 〈 即 27 个 元 素 )。 此 外 ,每 


台 从 处 理 器 将 向 主 处 理 器 返回 C 的 一 个 元 素 。 其 通信 时 间 为 : 


2 2 
tcomm = 1 (ianwp + Ng ) + 1 (Tan + Laat 


comm tartup 


)= 12(2t 


startup 


+ (2n + 1)t) 


用 主 处 理 器 收集 结果 、 可 以 使 这 个 收集 品行 化 。 
可 以 看 到 矩阵 4 和 B 的 元 素 的 选择 性 传输 会 带 来 过 重 的 通信 开销 并 支配 通信 时 间 。 事实 上 ， 
依赖 于 具体 的 广播 算法 ， 将 两 个 完整 拭 阵 用 一 次 广播 传送 给 每 个 从 处 理 器 可 减少 通信 开销 。 
广播 沿 单 总 线 发 送 所 需 的 通信 时 间 为 : 第 / 列 bD [3] 
tcomm = (ltarup + 1 to ) + Lt (Ranp + Laata) 
现在 ,通信 的 大 部 分 时 间 消 耗 在 返回 结果 上 ， 因 为 fnwp 远 大 
于 tana。 如 果 使 用 像 树 结构 这 样 的 有 效 算法 ， 那 么 集中 例 程 就 
会 减少 返回 结果 所 需 的 时 间 (如 第 2.3.4 节 所 描述 的 利用 树 结 
构 的 方法 )。 
(2) 计算 “计算 仅 发 生 在 从 处 理 器 上 。 每 台 从 处 理 器 并 
行 执行 4 个 乘法 操作 和 n 个 加 法 操作 ; 即 : BD) 
foun = 2n 图 11-6 甜 阵 相 乘 的 直接 实现 


使 用 树 结构 可 在 n 合 处 理 器 上 用 logn 时 间 步 完成 4 个 元 素 的 加 法 运算 ， 从 而 提高 了 性 能 。 图 11-7 


第 i 行 alil {] 


处 理 器 Pi 


344 
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示 出 了 4 x 4 和 矩阵 co o 的 计算 。 因 此 ， 我 们 在 使 用 产 台 处 理 器 时 可 获得 O(logn) 的 时 间 复杂 性 而 
不 是 用 天台 处 理 器 获得 O (n) 的 时 间 复 杂 性 。 ao boo ml bio G02 bo a03 bao 

2. 子 和 矩阵 

对 于 每 一 种 方法 ， 我 们 都 可 以 用 子 和 矩阵 代 替 和 矩阵 元 素 ， 
以 减少 处 理 器 的 数目 。 假 设 ， 我 们 选择 m x mm 的 子 矩 阵 并 令 
5s = n/m， 即 有 s 行 s 列 个 子 矩 了 泗 。 这 样 ， 每 个 矩阵 就 有 se 个 子 
逢 阵 ， 系 统 需 要 s? 个 处 理 器 。 

(1) 通信 ” 品 个 从 处 理 器 中 的 每 一 台 ， 必 须 分 别 接收 子 算 
阵 中 的 一 行 和 一 列 元 素 ， 每 一 个 子 和 矩阵 有 m? 个 元 素 。 此 外 ， 
每 台 从 处 理 器 必需 向 主 处 理 器 返回 一 个 有 m? 个 元 素 的 子 矩 阵 con 
C。 其 通信 时 间 为 : 图 11-7 使 用 树 结构 求 和 





fomm = 人 2(faanp + nfma) + Ciarop + tana )} = (n/m)? {toon + (m7 + 2nm)tans} 
同样 ， 全 部 和 矩阵 都 会 被 广播 到 每 台 处 理 器 上 。 注 意 ， 当 和 矩阵 规模 m 增 加 时 (处理 器 数 减 少 引 起 
的 )， 每 条 消息 的 数据 传输 时 间 增 加 了 ， 但 消息 的 实际 数目 减少 了 。 至 于 这 个 通信 时 间 函 数 在 
给 定 自 变量 mm 的 情况 下 ， 是 否 存在 最 小 值 ， 留 给 习题 (习题 11-1)。 
(2) 计算 ”算法 操作 的 总 数 基 本 没有 变 。 每 个 从 处 理 器 并 行 执 行 s 个 子 矩 阵 乘 法 和 s 个 子 和 矩 
阵 加 法 。 上 顺序 执行 一 次 子 矩 阵 乘法 运算 需要 m 次 乘法 操作 和 ma 次 加 法 操作 ， 此 外 ， 执 行 一 次 
子 年 阵 加 运算 又 需要 mm 次 加 法 操作 。 因 此 有 : 
tonp = 8S(C2103 + m2) = O (sn ) = O nm) 
在 整个 算法 分 析 中 ， 我 们 假设 结果 单元 在 初始 化 时 被 置 为 零 ， 之 后 的 值 就 在 其 上 累加 得 到 。 
这 使 得 加 法 操作 的 次 数 与 被 累加 到 和 的 值 相 等 。 


11.2.3 递归 实现 


块 矩阵 相 乘 算法 暗示 了 一 个 递归 的 分 治 求解 ， 就 像 [Horowitz and Zorat，1983] 和 [Hake， 
1993] 所 描述 的 那样 。 该 算法 对 于 并 行 实现 具有 巨大 的 潜力 ， 尤 其 是 对 于 共享 存储 器 的 并 行 实 
现 更 为 如 此 。 

首先 考虑 ， 两 个 n x n 和 矩阵 4 和 B， 这 里 n 是 2 的 乘 方 (习题 11-2 研 究 了 如 何 处 理 n 不 是 2 的 乘 
方 的 情况 )。 每 个 矩阵 被 划分 成 4 个 子 方 了 泗 ， 如 前 面 图 11-5 所 示 。 设 4 的 子 和 矩阵 为 4p,、Apy、Awp 
和 4 并 且 刀 的 子 和 矩阵 为 Bop、 Bov、Bw 和 Be (p 和 gq 分 别 标识 行 位 置 和 列 位 置 ) 。 最 后 结果 需要 8 对 
子 和 矩阵 相 乘 。4oo x Bpp、Apa x Bap、App x Bp、 Apa * Bap Agp * Bpp、 Ayg * Bap Aap * Bo 和 4o x Br， 
并 且 将 结果 对 加 到 一 起 。 如 图 11-8 所 示 。 用 相同 的 算法 可 对 每 个 子 矩 阵 做 乘法 运算 。 将 子 矩 
阵 分 成 4 个 次 子 和 矩阵 ， 用 相同 的 算法 可 对 每 个 子 矩阵 做 乘法 运算 ， 依 此 类 推 。 因 此 ， 算 法 可 写 
成 下 面 的 递归 形式 : 

mt_mlt(A, B, s) 

{ 


if (s == 1) /* if Submatrix has one element */ 
C=A*B; /* mltiply elements */ 
else { /* else Continue to make recursive calls */ 
S = s/2; /* the number of elements in each row/colum*/ 


PO = mat. mult (App, 
Pl = mat_mlt (Apg, 


P2 = mat_mult (App, 
P3 = mat_mult (Apa， 


中 由 中 村 
nm 
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P4 = mat_mlt (Agp, Bpp, Ss); 
P5 = mat mult (Agg, Bap, 5S); 
P6 = mat_mult (Agp, Bpg, 5S); 
P7 = mat_mult (Agg, Bgg, S); 


Cpp = PO + Pl; /* add submatrix products */ 
Cpg = P2 + P3; /* to form submatrices of final matrix */ 
Cop = P4 + P5; 


Cag = P6 + P7; 


} 


return (C}); /* return final matrix */ 

} 
8 次 递归 调用 的 每 一 次 调用 在 不 同 处 理 器 上 同时 执行 ， 其 他 处 理 器 在 更 深层 递归 调用 后 才 被 分 
配 。 通 常情 况 下 ， 如 果 用 一 台 处 理 器 来 执行 由 递归 调用 产生 的 任务 中 的 一 个 任务 ， 则 处 理 器 
的 数目 应 为 8 的 乘 方 。 递 归 调 用 的 深度 不 是 由 s ( 每 个 子 矩 阵 的 每 行 和 每 列 中 的 元 素数 ) 等 于 1 
时 停止 递归 调用 来 限制 的 ， 而 是 由 可 用 的 处 理 器 数目 指定 的 某 个 较 大 的 数 来 限 止 的 。 例 如 ， 
在 8 台 处 理 器 的 情况 下 ， 在 第 一 层 ( 即 s = n/2) 就 停止 递归 调用 可 能 比较 好 [Hake，1993]， 因 
为 更 深层 次 的 问题 划分 仍 需 要 将 任务 映射 到 这 些 处 理 器 上 。 





PaPs PeP’ 


图 11-8 子 和 矩阵 相 乘 并 求 和 


这 种 方法 的 一 个 非常 有 利 的 方面 就 是 ， 在 每 一 次 递归 调用 中 ， 被 传递 的 数据 大 小 被 减 小 
并 且 被 局 部 化 。 这 在 具有 高 速 缓存 的 多 处 理 机 系统 中 将 可 获得 最 佳 的 性 能 。 由 于 这 种 算法 中 
没有 特定 的 消息 传递 ， 所 以 这 种 方法 尤其 适用 于 共享 存储 器 系统 。 与 此 相反 ， 下 一 节 中 的 所 
阵 相 乘 算法 含有 消息 传递 特征 ， 因 此 更 适用 于 消息 传递 系统 。 


11.2.4 网 格 实现 


最 适合 矩阵 运算 的 消息 传递 体系 结构 就 是 二 维 网 格 ， 网 格 中 的 每 一 个 结 点 计算 结果 数组 
中 的 一 个 元 素 (或 是 一 个 子 矩 阵 )。 网 格 的 连接 将 使 相 邻 结 点 间 的 消息 能 够 同时 传递 。 即 使 在 
非 网 格 的 体系 结构 中 ， 尽 管 存在 消息 竞争 和 巨大 的 延迟 ， 也 可 用 适当 数目 的 处 理 器 来 建 模 网 
格 。 例 如 ， 使 用 单 以 太 网 线 连接 的 工作 站 时 ， 网 格 算法 肯定 会 引起 消息 争 用 ， 而 使 用 结 点 间 
不 同 的 以 太 网 链 路 上 的 实际 的 网 格 计算 机 时 这 种 争 用 就 不 会 发 生 。 这 种 性 能 方面 的 差异 表明 ， 
每 个 结 点 应 处 理 大 块 元 素 ( 子 矩阵 ) 以 减少 结 点 间 的 通信 。 

已 经 在 网 格 结构 上 开发 了 好 几 种 矩阵 相 乘 算法 ,我们 将 介绍 其 中 的 两 个 ， 即 Cannon 算法 
和 脉动 方法 。 另 一 个 矩阵 相 乘 算法 是 由 Fox 提 出 的 , 有 关 它 的 详细 描述 请 参见 [Fox et al.，1988]。 

1. Cannon 算 法 : 

Cannon 算 法 [Cannon，1969] 使 用 带 有 环线 连接 的 处 理 器 网 格 向 左 移动 4 元 素 (或 子 矩 阵 ) 
并 向 上 移动 B 元 素 (或 子 矩 阵 )， 如 图 11-9 所 示 。 所 有 移动 都 可 环绕 。 尽 管 通常 使 用 子 矩 阵 ， 
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但 为 清晰 起 见 我 们 仍 使 用 数组 4 和 8 的 元 素 。 该 算法 的 工作 步骤 可 描述 为 如 下 : 

1) 初始 时 处 理 器 Pi ;有 元 素 a; j 和 b; (Ogign,0gj<n), 

2) 将 元 素 从 初始 位 置 移 到 “对 准 的 ”位 置 : 即 4 的 第 ; 行 整 行 向 左 移动 ! 个 位 置 ， 下 的 第 / 
列 整 列 向 上 移动 个 位 置 。 这 使 得 元 素 ai, ; ; ;和 bi , j, ; 均 被 移 到 处 理 器 Pi ; 上 。 这 些 成 对 的 元 
素 是 在 ci ; 累加 时 所 需要 的 ， 如 图 11-10 所 示 。 

3) 将 每 个 处 理 器 已 上 的 元 素 相 乘 。 

4) 将 4 的 第 i 行 向 左 移动 1 个 位 置 ，B 的 第 j 列 向 上 移动 1 个 位 置 ， 从 而 使 得 4、B 的 相 邻 元 素 
在 一 起 以 满足 求 和 所 需 ， 如 图 11-11 所 示 。 

”5) 将 移 到 每 个 处 理 器 Pi; 上 的 元 素 对 相 乘 ， 并 将 乘积 加 到 累加 和 上 。 
6) 重复 第 4 步 和 第 5 步 直 到 产生 最 后 结果 (将 n 行 4 列 元 素 做 了 nn-1 次 移动 )。 
该 算法 不 需要 存放 部 分 结果 的 额外 存储 空间 。 





图 11-9 4 和 有 8 的 元 素 的 移动 图 11-10 第 2 步 一 对 准 A 
2 分 析 4 和 有 的 元 素 的 元 素 移动 1 个 位 置 


(1) 通信 回 到 子 矩阵 ， 给 定 史 个 mx m 子 矩阵 ， 初 始 A 和 B 各 自 对 准 最 多 需要 *-1 次 移动 ( 通 

信 ) 操作 。 之 后 ，A 和 B 分 别 将 有 s-1 次 移动 操作 ， 每 次 移动 操作 涉及 到 mm x m 个 元 素 。 因 此 ， 
tcomm = 4(5—1) (tstarup 十 102 faata) 

也 可 以 写成 通信 复杂 性 O (swz ) 或 O (mn)。 

(2) 计算 每 一 个 子 矩 阵 乘法 需要 ma 次 乘 操作 和 m3 次 加 操作 。 因此 ， 在 s-1 次 移动 中 ， 计 
算 时 间 为 : 

tcomp = 25113 = 21p02n 

也 可 以 写成 时 间 复 杂 性 的 形式 O (m2 四。 

3. 二 维 流水 

脉动 阵列 (Systolic) 一 词 源 于 医学 领域 就 像 心脏 砂 取 血液 一 一 样 ， 信 息 通过 脉动 阵列 ， 
以 某 种 规则 的 间隔 从 不 同方 向 被 泵 取 。 这 里 考虑 的 是 二 维 脉动 阵列 ， 信 息 从 左 被 泵 取 到 右 、 
从 上 被 泵 取 到 下 。 信 息 在 内 部 结 点 上 相遇 ， 在 其 中 被 处 理 ， 而 同一 信息 又 向 前 (从 左 到 右 或 
从 上 到 下 ) 传递 。 

图 11-12 描 绘 了 一 个 用 二 维 肪 动 阵列 ， 对 两 个 4x 4 矩阵 4 和 有 进行 乘法 运算 的 过 程 。4 的 元 
素 从 左 输入 ，B 的 元 素 从 上 输入 。 最 后 的 结果 C 存 储 在 如 图 11-12 所 示 的 各 个 处 理 器 中 。 用 x 和 y 
坐标 恰当 地 给 处 理 器 编号 ， 从 左上 角 (0, 0) 开始 。 每 台 处 理 器 Pij 重复 地 执行 相同 的 算法 
(在 c 被 初始 化 为 0 之 后 ): 


recv(&a, Pi,j-1); /* receive from left */ 





recv(&b, Pi-1,j); /* receive from right */ 
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c=c+a*b; /* accumlate value for ci,j */ 
. 
Send(&a, Pi,j+1); /* send to right */ 
send (&b, Pi+1,j); /* send dowrwards */ 
该 算法 累加 所 需 的 和 。 
b33 
b32 bs 
bs b22 bis 
bs30 bz bi2 bos 
泵 取 操 作 bz20 bli poz . 
bio bo * 
boo 。 


203 402 20.1400 





一 个 局 期 延迟 


G13G120C14010。 
023022021420。 


03.303203,103.0 。 


图 11-12 使 用 脉动 阵列 进行 矩阵 相 乘 


我 们 考虑 一 下 在 处 理 器 Po.o 上 发 生 的 情况 。 首 先 ，aoo 和 2o,o 进 入 Po。， 相 乘 得 coo = ao opo o。 
ao,o 和 Do. o 继 续 向 前 分 别 被 传送 到 Po, ;和 Po 上 。 接 着 ，Po. o 从 左边 接收 ao ;， 从 上 边 接收 户 , o。 
在 将 这 两 个 元 素 相 乘 后 ， 乘 积 加 到 co o 上 ， 并 将 ao 和 bi, o 按 规定 方向 继续 向 前 传送 。 对 每 
一 对 从 左边 和 上 边 进入 的 元 素 进 行 同样 的 操作 ， 最 后 在 四 
次 循环 之 后 ， 我 们 得 到 所 需 的 结果 : 
C0,0 = Go.0po.o + ao, ibi,o + Gao,2p2o + ao, 3b3,0 
Po 以 类 似 的 方式 操作 ， 但 它 迟 后 一 个 周期 从 Po 处 接收 
数据 ， 因 此 来 自 上 面 的 数据 也 需 迟 后 一 个 周期 。po ,从 对 ao ， 
和 bo, ! 相 乘 开始 ， 在 四 个 周期 后 得 到 cos; 即 ， 
C0, 1 = ao, obo, 1 + ao, ib1,1 + ao,2b2,1 + do0.3p3,1 
在 其 他 处 理 器 上 也 进行 类 似 的 计算 。 尽 管 没有 一 个 公共 的 时 M32 A » 
钟 信 号 ， 计 算 操作 通过 定时 的 send( ) 和 recv ( ) 以 同步 方式 
进行 。 必 须 在 输入 处 生成 4 和 B 的 元 素 ， 如 图 11-12 所 示 。 这 
些 元 素 的 交错 布局 仅 是 为 了 指明 定时 。 这 种 方法 也 可 以 应 用 
到 子 什 阵 分 解 上 ， 当 然 此 时 需 用 子 和 矩阵 代替 和 矩阵 元 素 。 
4. 分 析 03303203.1030 。 
此 处 的 分 析 与 Cannon 算 法 的 分 析 非 常 类 似 ， 将 其 留 作 习 图 11.13 使 用 肪 动 阵列 进行 


题 (习题 11-3)。 矩阵 -向 量 相 科 


泵 取 操 作 
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5. 矩阵 -向 量 乘法 
显然 ， 在 矩阵 相 乘 的 算法 中 ， 若 矩阵 B 只 有 一 列 元 素 ， 则 算法 就 可 以 简单 地 应 用 到 筷 阵 -向 
量 乘法 中 。 用 来 求解 矩阵 -向 量 乘法 的 脉动 阵列 如 图 11-13 所 示 。 


11.2.5 其 他 和 矩阵 相生 方 法 


顺序 矩阵 乘法 的 时 间 复 杂 性 O (m3 ) 可 以 用 [Strassen，1969] 的 一 个 更 巧妙 的 方法 得 到 一 点 
改进 。 这 个 算法 在 习题 11-4 中 描述 ， 在 一 些 关 于 算法 的 教科 书 中 也 有 描述 ， 如 [Aho, Hopcroft， 
and Ullman，1974] 和 [Cormen, Leiserson, and Rivest，1990]。 该 算法 的 时 间 复 杂 性 为 O (n231)。 
后 续 的 研究 人 员 对 这 个 结果 只 做 了 极 小 的 改进 即 ，O (n23”%)。 但 是 ， 在 一 般 情况 下 ， 由 于 所 有 
方法 的 附加 复杂 性 设 理由 使 用 它们 ， 除 非 z” 确 实 非常 大 。[Hake，1993] 在 巨型 机 Cray-Y-MP 机 
器 上 ， 利 用 基本 的 分 治 和 矩阵 相 乘 算法 和 Strassen 算 法 所 得 到 的 结果 表明 ， 使 用 Strassen 算 法 仅 
稍微 提高 了 执行 速度。 和 气 阵 乘法 也 可 以 使 用 到 三 维 数组 上 。 


11.3 求解 线性 方程 组 
11.3.1 线性 方程 组 
假设 我 们 有 一 个 线性 方程 组 : 


Qn-1,0X0 + Qn1,1X] + Gn-1,2X2 + anin IXn-l= bn-l 
CQ2 .0X0 十 02,.1X1 十 42.2X2 a + dyn-lXn-l = by 
al1,0X0 + al,1X1 + G1,2X2 A + aln-_17, | =bi 
C0.020 十 ao, 1X1+ C0,272 ss + Gon—1Xn-1 二 bo 
可 将 其 写成 矩阵 形式 ， 
Ax=b 


解 这 个 方程 组 的 目的 是 ， 已 知 aoo， 00 ***, Gn -in -! 和 bo, bi1,…, bn -1 ( 即 矩阵 4 和 向 量 注 ) 求解 未 
知 数 xo, x1,…, xa-1。 在 一 些 应 用 中 ， 和 矩阵 4 中 的 某 些 元 素 可 能 为 零 。 如 果 和 矩阵 中 大 部 分 元 素 为 
非 零 ， 就 认为 是 复 密 算 阵 ; 如 果 和 矩阵 的 大 部 分 元 素 为 零 ， 就 认为 是 稀 足 矩阵 。 区 分 两 者 的 原 
因 是 ， 稀 琉 矩 阵 的 计算 强度 较 小 因此 更 适合 使 用 一 些 空间 有 效 算法 。 也 许 有 关 稠密 和 稀 玻 更 
准确 的 定义 是 ， 利 用 那些 零 项 的 更 为 简单 的 计算 方法 是 否 可 以 应 用 于 矩阵 。 

在 整个 这 一 节 中 ， 我 们 将 假设 矩阵 4 是 稠密 的 ， 并 用 数学 方法 直接 求解 方程 组 。 在 11.4 节 
中 ， 我 们 会 假设 4 是 稀疏 的 ， 并 用 迭代 法 求解 。 在 以 前 的 章节 中 ， 我 们 已 经 看 到 一 些 求解 线性 
方程 组 的 方法 和 一 些 具体 的 并 行程 序 设计 技术 。 一 般 的 线性 方程 组 ， 可 以 用 6.3.1 节 中 的 选 代 
法 求解 。 这 种 方法 尤其 适合 稀疏 矩阵 4。 上 三 角 的 线性 方程 组 也 可 以 利用 5.3.4 节 中 的 族 水 线 回 
代 方 法 求解 。 事 实 上， 求解 上 三 角 线 性 方程 组 ， 就 是 直接 用 高 斯 消去 法 求解 一 般 线性 方程 组 
的 最 后 一 步 。 下 面 我 们 就 介绍 高 斯 消去 法 及 其 并 行 化 的 可 能 性 。 


11.3.2 高 斯 消去 法 


高 斯 消去 法 的 目的 就 是 ， 将 11.3.1 节 中 的 一 般 线性 方程 组 转化 成 三 角 方程 组 。 该 方法 利 
用 了 线性 方程 组 的 一 个 基本 特征 ， 即 线性 方程 组 的 任 一 行 可 由 该 行 加 上 另 一 行 乘 以 一 个 常数 
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所 代替。 此 过 程 从 第 一 行 开始 ， 并 向 下 进行 。 在 第 i 行 ， 第 判 以 下 的 每 一 行 /都 将 被 (第 / 行 ) + 
(第 ; 行 ) (~ayi [aii ) 所 赫 换 。 在 第 / 行 用 的 常数 是 -au /aii， 以 使 第 i 列 第 j 行 以 下 的 元 素 变 成 零 ， 
这 是 因为 : 
-aji\ 
Ci | 

图 11-14 是 考虑 第 i 行 的 情况 。 行 i 被 称 为 是 主 元 行 (pivot row)。 在 这 时 ， 所 有 在 对 角 线 以 
下 、 第 i 列 以 左 的 列 都 被 以 前 的 操作 置 为 零 ; 
所 有 在 对 角 线 以 下 、 第 ; 列 以 右 的 列 都 被 以 后 
的 操作 置 为 零 。 一 旦 这 个 过 程 持续 到 最 后 一 
行 ， 便 得 到 了 一 个 上 三 角 方 程 组 。 

不 幸 的 是 ， 这 个 过 程 在 数字 计算 机 上 没 
有 表现 出 很 好 的 稳定 性 。 尤 其 当 ai. 为 0 或 接 
近 于 0 时 ， 我 们 不 能 计算 -av /ai 的 值 ; 所 以 
这 个 过 程 必 需 被 修改 成 所 谓 的 局 部 选 主 元 
(partial pivoting )， 即 交换 第 : 行 和 它 下 面 的 
行 ， 使 第 i 行 以 下 的 所 有 行 的 第 i 列 中 绝对 值 
最 大 的 元 素 被 交换 到 第 ; 行 上 。( 交 换 方程 组 
中 方程 的 位 置 所 得 的 新 方程 组 与 原 方程 组 等 
价 。) 那么 就 可 以 在 第 i 行进 行 高 斯 消去 法 了 。 
在 此 过 程 的 每 一 步 都 必须 检查 数值 的 稳定 性 ， 图 11-14 高 斯 消去 法 353 
并 且 无 法 在 高 斯 消去 之 前 进行 。 下 面 ， 我 们 
将 不 考虑 会 带 来 一 些 额外 计算 的 局 部 选 主 元 的 方法 。 





Qi tel 





顺序 代码 
下 面 是 不 考虑 局 部 选 主 元 方法 实现 高 斯 消去 发 的 顺序 代码 : 
for (i = 0; i < n-l; i++) /* for each row, except last */ 
for (j = i+l; j <n; j++) { /* step through subsequent rows */ 
m= a[lj]lil/a[lil]Iil; /* Compute multiplier */ 
for (Kk = i; k < n; k++) /* modify last n-i-1l elements of row j */ 
a[j]{k]} = a[j][x] - a[i]{k] * m; 
b[j] = b[j] - bl * m; /* modify right side */ 
} 
时 间 复 杂 性 为 O (n3)。 


11.3.3 并 行 实现 


观察 顺序 代码 ， 显 然 有 并 行 化 余地 。 内 部 循环 中 ， 修 改 第 j 行 包括 一 些 独立 于 第 j 行 上 的 元 
素 的 操作 。 一 种 划分 该 问题 的 方法 是 ， 一 台 处 理 器 持 有 一 行 元 素 并 操作 该 行 。 如 果 有 n 个 方程 ， 
就 需要 n 台 处 理 器 。 在 处 理 器 能 够 操作 这 行 之 前 ， 必 须 从 第 i 行 接收 元 素 ， 这 可 以 通过 广播 操作 
实现 。 首 先 ， 处 理 器 Po。( 持 有 第 0 行 元 素 ) 向 其 他 所 有 n-1 台 处 理 器 广播 这 行 元 素 ， 之 后 这 些 处 
理 器 计算 它们 各 自 的 乘 数 ， 并 修改 它们 的 行 。 这 一 过 程 在 P1, P;, …, P,.2 上 被 重复 执行 。 被 处 理 
器 PP 广播 的 第 i 行 元 素 是 a[i] [i+1]，a[li][i+2]，,，…，a[i][n-1] 和 b[i]， 共 n-i+ 1I 个 
元 素 《0< i<n-1)， 如 图 11-15 所 示 。 处 理 器 Pi, 1 到 P; -! 包 括 它 们 自己 ( 共 n-i-1 台 处 理 器 ) 将 
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收 到 广播 消息 ， 并 处 理 它们 各 自行 上 的 w-i + 1 个 元 素 . 
1. 分 析 
(1) 通信。 假设 广播 消息 能 在 一 步 内 完成 。 因 为 在 每 一 次 广播 中 要 交换 行 ， 因 此 n- 1 个 广 
播 消息 必须 顺序 执行 。 第 ;次 广播 消息 包括 mn-i + 1 个 元 素 。 因 此 ， 整 个 消息 通信 时 间 为 : 
CR (Ce 
即时 间 复杂 性 为 O(m?)。 对 于 n 较 大 的 情况 ， 在 前 几 步 数据 时 间 tiu 将 占 去 通信 时 间 的 大 部 分 ， 
实际 上 ， 每 一 次 广播 消息 所 需 的 时 间 不 只 一步 ， 它 依赖 于 具体 系统 的 体系 结构 。 


广播 第 : 行 





已 被 清 零 
图 11-15 高 斯 消去 法 中 广播 的 并 行 实现 
(2) 计算 广播 完 一 行 之 后 , 除了 广播 处 理 器 Pi 外 每 个 处 理 器 Pj 就 会 收 到 消息 ,计算 乘 数 ， 
并 对 该 行 上 的 na-j + 2 个 元 素 进行 操作 。 忽 略 乘 数 的 计算 后 ， 还 有 n-j + 2 次 乘法 和 nj + 2 次 减 
法 ， 因 此 计算 时 间 为 : 


tt 3 On?) 


fo 2D 1+ = 
注意 ， 由 于 所 有 处 理 器 在 持 有 第 i 行 元 素 之 前 不 参加 计算 ， 所 以 效率 会 相当 低 。 起 初 ，n-1 
台 处 理 器 可 以 计算 ,随后 ，n-2 台 处 理 器 可 以 参加 计算 ， 之 后 ，n-3 台 处 理 器 可 以 参加 计算 ， 
以 此 类 推 。 每 一 步 所 做 的 工作 要 比 上 一 步 少 。 效 率 的 推导 留 作 习题 (习题 11-15) . 
2. 流水 线 结构 
处 理 器 可 以 被 组 织 成 流水 线形 式 ， 如 图 11-16 所 示 。 





图 11-16 高 斯 消去 法 的 流水 线 实 现 


3. 划分 
为 了 使 处 理 器 的 数目 减少 到 小 于 n， 我 们 可 以 将 矩阵 分 割 成 若干 行 组 ， 每 台 处 理 器 持 有 一 
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组 ， 这 就 是 如 图 11-17 所 示 的 条 状 划 分 。 例 如 ， 如 果 有 p 台 处 理 器 ， 则 每 台 处 理 器 持 有 n/p 行 。 
不 幸 的 是 ， 处 理 器 在 处 理 完 它们 的 最 后 一 行 元 素 后 ， 不 再 参加 计算 。 另 一 种 划分 方法 是 ， 使 
各 个 处 理 器 的 工作 负载 相等 ， 如 图 11-18 所 示 ， 这 是 一 种 循环 带 状 划 分 。 现 在 每 台 处 理 器 将 在 
较 长 一 段 时 间 内 工作 。 例 如 ，Po 分 到 第 0、n/p、2n/p、3n/p 行 ， 并且 动 作 持续 到 超过 第 3n/p 行 。 
记分 到 第 1、n/p + 1、2n/p+ 1、3n/p + 1 行 ， 并 且 动 作 持 续 到 超过 第 3n/p + 1 行 。 划 分 托 阵 的 最 
后 一 种 方式 就 是 棋盘 方式 ， 如 同 为 矩阵 乘法 运算 对 处 理 器 进行 划分 那样 。 

行 
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图 11-17 条 状 划分 图 11-18 用 循环 划分 使 工作 负载 相等 







S 0 


mp // 


NT Po——— 











"RR 







[CCLLLCLCLCLCCLCLCLCLCLCLCLCLCLCLCCLL 
RN 


Hnip 











P. 


NY 





/ALLLLLL 
WNNNNNNNNNNNNNNNNNNNN 


Ph 


A 2nip 
-一 一 












P 





S 


2 






SIIIIISSIIGS GI IIIS GI I ISN 
UNNNNNNNNNNNNNNNNNNNNN 


3n/p 3n/p 





P. 


四 





11.4 迭代 方法 
在 这 一 节 中 ， 我 们 研究 通过 和 迭代 求解 线性 方程 组 和 偏 微分 方程 的 方法 。 我 们 将 说 明 用 离 
散 化 方法 求解 偏 微分 方程 组 与 求解 线性 方程 组 的 关系 。 


11.4.1 雅 可 比 和 迭代 
基本 的 雅 可 比 选 代 方 法 已 经 在 6.3.1 节 介绍 局 部 同步 时 介绍 过 了 。 给 出 nr 个 线性 方程 的 一 般 形式 
Ax=b 
雅 可 比 送 代用 下 面 的 迭代 公式 描述 : 
上 工 | kl 
万 = 了 [ Da | 


其 中 ， 上 角 标 表示 迭代 次 数 ， 例 如 ， 尖 表示 xi 的 第 次 迭代 ，x 人 表示 x 的 第 k-1 次 迭代 
(0<i<n,0<j<n)。 迁 代 公式 就 是 将 第 i 个 未 知 数 放 在 第 i 个 方程 的 左边 。 

至 此 ， 我 们 已 经 给 出 了 两 个 求解 线性 方程 组 的 方法 : 一 种 是 直接 方法 (高 斯 消去 法 )， 另 
一 种 是 选 代 靶 。 直 接 法 的 时 间 复 杂 性 是 O (ez ) (在 有 n 台 处 理 器 的 情况 下 )。 送 代 法 的 时 间 复 杂 
性 依赖 于 迭代 次 数 和 精度 要 求 。 

和 迭代 法 的 一 种 特殊 应 用 就 是 求解 稀疏 线性 方程 组 ， 也 就 是 说 ， 方 程 的 项 不 是 很 多 的 线性 
方程 组 。 这 样 的 方程 出 现在 求解 偏 微分 方程 组 的 方程 中 。 例 如 最 基本 的 偏 微分 方程 就 是 拉 普 
拉 斯 方程 : 
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目的 是 在 具有 *、) 坐 标的 二 维 空间 中 求解 函数 f。 以 下 的 方法 也 可 以 应 用 到 泊 松 方程 ， 泊 松 方 
程 是 类 似 于 拉 普 拉 斯 方程 的 另 一 种 基本 方程 ， 只 解 愉 辣 -下 
是 等 式 右 边 是 一 个 函数 。 习 题 11-8 研 究 了 它 的 必 
要 变化 。 

对 于 计算 机 求解 ， 有 限 差分 方法 是 最 合适 的 。 
在 这 个 方法 中 ， 把 二 维 解 空间 离散 化 成 大 量 解 的 
点 ， 如 图 11-19 所 示 。 如 果 两 点 间 在 x 和 y 方 向 上 的 
距离 A 足 够 小 ， 就 可 以 在 第 2 次 迭代 中 使 用 中 心 差 本 
分 近似 : 图 11-19 有 限 差 分 方法 





of 
Ox? 
of 
Ee 
(证 明 参 见 [Bertsekas and Tsitsiklis，1989]) 用 这 个 差分 公式 代入 拉 普 拉 斯 方程 可 得 : 


~ [fe+h, ») -2f(x, 7)+ f(x -A,y)] 


-去 Dosy+A)-27tr y+ f(x,y-A)] 


UGA D+ fA D+ FO, y+ A + Fy- A) -4 W120 


整理 后 就 可 得 到 : 
f(x, y) = D+ NIG D+ fo y+ A 
即 为 6.2.3 节 中 使 用 的 结果 。 


这 个 公式 可 被 重新 写成 迭代 公式 的 形式 : 
f= AD A +A) + yg 

其 中 f*(x, y) 是 在 第 k 次 迭代 中 得 到 的 ，f-!(x, y) 是 在 第 -1 次 迭代 中 得 到 的 。 通 过 重复 应 用 这 
个 公式 ， 最终 可 以 收敛 到 我 们 所 需 的 解 ， 如 第 6 章 所 描述 的 那样 。 

像 在 第 6 章 中 一 样 ， 我 们 假设 求解 空间 是 正方 的 ， 并 且 解 的 点 是 按 行 排列 的 。 设 每 行 有 六 
个 点 ， 共 有 m 行 ， 故 数组 有 m x m 个 点 。 为 了 计算 方便 ， 假 
设 边界 是 由 点 构成 的 ， 但 它们 的 值 是 已 知 的。 边界 点 在 计 边界 点 ( 见 正文 ) 
算 与 其 相 邻 点 的 值 时 被 用 到 ， 并 且 被 包含 在 m x m 数 组 中 。 入 x3 - pi et 的 3 证 
假设 这 些 点 按 自然 数 序 编号 ， 在 网 格 中 是 按 行 排列 的 。 第 剃 加 而 台 训 高 吉 高 高 部 


1 行 中 含有 点 xi， X2, X3, ***, Xm, 第 2 行 有 点 xmi+ 1， Xm + 2, Xm + 3, 所 Ys [ee 4 党 ~ 
,xan 以 此 类 推 ， 图 11-20 给 出 了 100 个 点 ， 每 行 10 个 点 。 小写 侣 宫 宫 守 久 宫 训 宫 
的 情况 (包括 已 知 值 的 边界 点 )。 村 其 
ti 与 一 般 线 性 方程 组 的 关系 市 起 Xd 总 地 这 地 zo zx 并 

第 个 点 的 值 由 第 i 个 方程 计算 出 。 这 个 方程 包含 点 市 训 高 高 训 高 高 高 高 痪 
1 Wim 41 和 sm， 按 自然 数 序 即 : 市 总 六 训 训 高 训 高 训 
% + x; ee 十 万 X91 Xo Xog3 Xo4 Xos ee er 本 > 与 X99 100 
世人 图 11-20 按 自然 数 序 编号 的 网 格 点 


4 
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或 者 是 : 
Kim +t Xi ~ 4X +Xi t+ Xm 0 
这 是 一 个 具有 5 个 未 知 变量 (边界 点 除外 ) 的 线性 方程 组 。 在 一 般 形式 中 ， 则 第 ;个 方程 为 : 
Er 二 2 二 GO0 

其 中 as = -4, ai-m= ii-1= Qii+1= Qii+m= 1。 

撼 阵 -向 量 形式 的 方程 如 图 11-21 所 示 。 向 量 x* 包 括 已 知 边界 变 量 (和 4 个 没 被 使 用 过 的 角 
上 的 点 )。 类 似 地 ， 和 矩阵 4 包括 边界 值 ( 和 没 被 使 用 过 的 项 )。 例 如 ， 在 图 11-20 中 ， 向 量 x 中 的 
变量 XI, Xo, X3, X4, Xs, X6, X17, Xg, X9, Xi0, X11 X20 X21 X30, X31, Xa0, X41 Xs0, X51, X60, X61 X70, X71, X80, X81 Xo0, 
X91l， X92 X93, X94， X95， X96， X97， X98 X99 和 Xi00， 被 置 为 1， 而 矩阵 4 中 相应 的 ai ;是 边界 常数 。 由 此 可 
看 到 4 的 通用 特征 。 主 对 角 元 素 是 -4， 其 上 下 两 条 副 对 角 线 元 素 是 1， 并 且 在 与 主 对 角 线 相距 
为 "的 上 下 两 条 副 对 角 线 的 元 素 也 为 1。 只 有 那些 在 对 角 线 上 有 未 知 变量 的 方程 ， 才 能 在 求解 
过 程 中 被 用 到 ， 并 且 这 些 方程 中 的 边 值 作为 常数 可 被 移 到 方程 右边 。 


`、 包括 边界 值 和 某 些 x 
、、 边界 点 在 对 角 线 上 的 。 ”0 项 (参见 正文 ) 
导 些 方 和 不 必 求 解 | 
1 1 -41 1 
1 1 -41 1 
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图 11-21 拉 普 拉 斯 方程 求解 的 稀疏 矩阵 


对 于 一 个 拥有 很 多 点 的 数组 ， 和 矩阵 就 会 非常 大 且 稀 玻 。 在 这 种 情况 下 ， 和 近代 方法 是 最 受 
欢迎 的 ， 因 为 它 占 用 的 存储 器 空间 较 少 ， 并 且 具 有 更 快 的 收敛 速度 。 

2. 收敛 速度 

不 幸 的 是 ， 由 于 依赖 于 矩阵 本 身 ， 雅 可 比 迭 代 法 收敛 得 非常 慢 (有 时 甚至 不 收敛 ! )。 按 
照 [Leighton，1992] 的 观点 ， 对 于 某 一 类 特定 的 矩阵 ， 如 对 角 占 优 矩 阵 (对 角 线 上 的 元 素 比 这 
一 行 上 其 他 元 素 的 绝对 值 之 和 还 大 )， 雅 可 比 松弛 法 可 以 在 logn 步 收敛 到 较 好 的 解 。 在 这 些 情 


wy 


帝 下 ，A 台 处 理 器 的 并 行 时 间 复 杂 性 为 O(logn)， 这 比 高 斯 消去 法 要 好 。 当 然 ， 这 完全 依赖 于 


收敛 速率 。 下面 让 我 们 看 以 下 几 种 可 能 的 快速 收敛 法 。 
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11.4.2 快速 收敛 方法 


1. 高 斯 ~ 赛 德尔 松弛 法 
一 种 试图 加 快 收敛 速度 的 方法 是 ， 在 迭代 中 利用 计算 出 的 新 值 来 计算 其 他 值 。 假 设 ， 我 
们 计算 出 的 值 排 成 自然 数 序 x1, xz, x 等 ， 当 计算 x 时， ,Xx3…, -! 已 经 被 算出 ， 可 以 与 还 


没 被 重新 计算 的 x;， 1 Xi+2, Xir3,'", Xn 一 起 被 用 到 求解 x; 的 迭代 公式 中 o 这 种 方法 就 是 著名 的 高 


斯 - 赛 德 尔 松 弛 法 。 它 通常 比 基 本 的 雅 可 比方 法 具有 更 高 的 (但 不 是 一 定 ) 收敛 速度 ， 并 且 方 
便 进行 顺序 程序 设计 ， 因 为 它 能 以 指定 的 串 行 顺序 计算 每 一 点 。 
高 斯 - 赛 德尔 迭代 利用 下 面 的 迭代 公式 : 


1 1 一 n 

， k 大 -1 
一 -| 记 -Da 一 DE 
Ci 


其 中 ， 上 和 角 标 代表 迭代 次 数 ， 即 第 次 迭代 使 用 了 第 人 次 和 第 针 1 次 和 迭代 的 值 。 对 于 未 知 数 以 自 
然 数 序 标号 的 拉 普 拉 斯 方程 ， 公 式 可 化 简 为 : 
A-! 


k k k kl 
Xi = (1/a a Xn t iNXit t Gi inXist + Qi an 


(注意 : ai.; =-4) 在 第 Kk 次 授 代 中 ， 四 个 值 中 的 两 个 (在 第 i 个 元 素 之 前 的 点 ) 来 源 于 第 ki 次 迭 
代 ， 而 另外 两 个 (在 第 i 个 元 素 之 后 的 点 ) 来 源 于 第 上 -1 次 和 迭代。 使 用 原始 的 有 限 差分 概念 ， 
可 有 : 


k 
Xr = 


f(xy) = [CT 六 Go 和 + 人 Et 人力 + Cy +A) 

当然 ， 要 使 用 这 个 公式 ， 我 们 必须 在 计算 其 他 值 之 前 在 第 次 大 代 中 已 经 计算 出 某 些 特定 
的 值 ， 这 表明 每 一 步 计 算 必 需 以 一 定 顺序 执行 。 在 高 斯 - 赛 德 尔 法 中 ， 更 新 的 顺序 是 以 自然 数 
序 排序 的 。 因 此 ， 计 算 将 扫 过 网 格 点 ， 如 图 11-22 所 示 。 这 对 并 行 来 讲 不 是 一 个 特别 方便 的 特 
性 (也许 线 性 流水 线 解法 除外 )。 但 是 ， 可 以 改变 这 个 顺序 ， 使 该 方法 更 适 于 并 行 化 。 


计算 的 顺序 


已 计算 的 点 


将 要 计算 的 点 





图 11-22 以 自然 数 序 顺序 计算 的 高 斯 ~ 赛 德尔 松弛 法 


2. 红 黑 排序 法 
在 红 黑 排序 中 ， 网 格 中 的 点 被 分 成 交替 出 现 的 红 点 和 黑 点 ， 如 图 11-23 所 示 。 黑 点 由 四 个 
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相 邻 的 红 点 计算 而 来 ， 而 红 点 则 由 四 个 相 邻 的 黑 点 计算 而 来 。 这 两 个 阶段 交替 进行 ， 直 到 结 
果 收 敛 。 首 先 ， 黑 点 被 计算 ， 之 后 红 点 被 计算 。 所 有 的 黑 点 可 以 同时 被 计算 ， 所 有 的 红 点 也 
可 以 同时 被 计算 。 网 格 点 用 下 标 (i, 亡 表示 ， 当 i+ 为 偶数 (假设 ) 时 该 点 为 黑 点 ， 当 i+j 为 ”G6 
奇数 时 该 点 为 红 点 。 显 然 ， 这 个 方法 适合 并 行 化 。 
(1) 并 行 代码 使 用 forall 来 描述 并 行 化 ， 代 码 形式 如 下 : 
forall (i = 1; i < m; i++) 
forall (j = 1; j < m; j++) 
if ((i + j) % 2 != 0) /* compute red points */ 
£[i][j] = 0.25*(f[i-1][j] + f£[i][j-1] + £[i+1] [j} + £[il [j+1]); 
forall (i = 1; i < my i++) 
forall (j = 1; j < mi j++) 
if ((i + j) % 2 == 0) /* compute black points */ 
ffijrfjl = 0.25*(f£[i-1] (j] + flil[j-1] + £[i+1) [ij] + £[i](j+11); 


其 中 数组 有 (m1) x (m 一 了 ) 个 内 部 数据 点 。 也 许 通 过 使 用 两 个 独立 的 数组 ， 一 个 存储 黑 点 ， 一 
个 存储 红 点 ， 可 以 避免 求 余 运算 以 提高 计算 效率 。 这 个 修改 工作 留 作 习 题 (习题 11-11)。 

(2) 处 理 器 分 配 ”如 果 我 们 将 一 台 处 理 器 分 给 一 个 点 ， 
则 每 台 处 理 器 有 一 半 的 时 间 闲 置 。 更 有 效 的 分 配方 案 是 ， 

一 台 处 理 器 分 给 一 对 相 邻 点 ， 一 个 红 点 、 一 个 黑 点 。 这 样 
如 个 点 就 需要 避 /2 台 处 理 器 。 

(3) 最 大 划分 ”通常 情况 下 ， 可 能 希望 使 用 比 网 格 结 
点 更 少 的 处 理 器 。 这 里 所 描述 的 红 黑 排序 可 以 推广 到 红 兴 
跳棋 盘 排 序 如 [Fox et al.，1988] 中 所 描述 的 那样 ， 此 时 网 格 
被 分 成 红 区 域 和 黑 区 域 ， 每 个 区 域 不 是 只 有 一 个 点 而 是 有 
一 组 相 邻 点 。 此 后 红 区 域 中 的 点 可 以 同时 计算 ， 黑 区 域 中 
的 点 也 可 以 同时 计算 。 而 分 别 在 红 黑 区 域 中 的 点 ， 则 要 在 
单个 处 理 器 上 顺序 计算 。 图 11-23 红 黑 排列 

3. 高 阶 差分 法 

到 目前 为 止 ， 我 们 在 计算 中 使 用 了 4 个 相 邻 点 。 为 了 提高 收敛 速度 和 求解 精度 ， 可 以 在 计 
算 中 使 用 更 远 的 点 。 修 改过 的 公式 如 下 : 362 


这 


酒 


OO@Dg@Og@w@ 
@@D@D@C， 
OO@cg@cg@c@ 
@w@O@@D 
OO@Og@Og@@ 
OOOO00@80 
OO O00®@ 
S0000@0 


je = 67 -AD Coy A +16F" (x + hy) +16 "(x 
-f(x~2A -f(x -2A) -fT x+2A, -f(x,y+2A) ] 


该 公式 使 用 8 个 点 来 更 新 一 个 点 ， 如 图 11-24 所 示 ， 这 就 是 所 谓 的 九 点 ( 蛙 形 ) 模板 (而 不 是 
以 前 所 说 的 五 点 “ 星 形 ”模板 )。 这 里 ， 我 们 以 模板 的 大 小 来 计数 中 心 
点 ， 该 点 可 在 选 代 公式 中 使 用 。( 参 见习 题 11-10)。 
有 几 个 可 选择 的 模板 ， 例 如 九 点 模板 除了 也 使 用 最 近 的 对 角 线 外 ， 
与 五 点 星 形 模板 相同 ; 十 三 点 星 形 模板 ， 它 使 用 九 点 星 形 模板 中 的 点 和 
最 近 对 角 线 的 点 。 在 每 一 步 的 计算 量 多 到 什么 程度 与 收敛 步 骂 数目 少 到 
什么 程度 之 间 存 在 一 个 平衡 。 将 处 理 器 映射 到 网 格 点 的 最 明显 的 方法 是 : “图 11-24 九 点 模板 
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或 者 将 一 台 处 理 器 分 到 一 列 网 格 点 上 ， 或 者 将 网 格 点 分 成 跳棋 盘 ， 一 台 处 理 器 分 到 一 个 区 域 
的 点 。 事 实 上 ，[Terrano, Dunn, and Peters ，1989] 已 指出 最 优 的 方法 是 ， 为 每 一 台 处 理 器 安排 
一 个 多 边 形 ， 该 多 边 形 的 边界 就 是 那些 离 中 心 点 最 远 的 在 模板 中 定义 的 点 。 例 如 ， 一 个 简单 
的 五 点 星 型 模板 可 以 构造 一 个 萎 形 多 边 形 。 将 这 几 个 点 映射 到 一 台 处 理 器 上 ， 就 仍 会 使 每 台 
处 理 器 得 到 一 个 菱形 。 

4. 过 度 松弛 法 

在 每 个 雅 可 比 或 高 斯 - 赛 德尔 公式 中 加 入 权 因 子 (1~w)x; ， 就 可 分 别 得 到 过 度 松弛 雅 可 比 
法 或 逐次 过 度 松弛 高 斯 - 赛 德 尔 法 。 因 子 w 是 过 度 松弛 和 参数。 一 般 线性 方程 组 的 过 度 松 弛 雅 可 
比 揭 代 公式 为 : 


JE 


其 中 ，0 < w < 1， 一 般 线性 方程 组 的 逐次 进度 松弛 高 斯 ~- 赛 德尔 迭代 公式 为 : 


Xi -2 -Sa Xi -yar 

其 中 0< w < 2。 如 果 w = 1， 就 得 到 高 斯 - 赛 德尔 迭代 法 。 

5. 多 网 格 法 

到 目前 为 止 ， 我 们 所 使 用 点 的 数目 是 固定 的 。 在 多 网 格 方法 中 ， 和 迭代 过 程 中 对 网 格 点 的 
操作 与 前 面 所 讲 的 相同 ， 只 是 在 计算 过 程 中 ， 每 一 步 中 参加 运算 的 点 数 可 以 改变 。 首 先 ， 使 
用 粗 网 格 点 〈 即 解 空间 被 分 成 很 少 的 几 个 点 )。 使 用 少 的 点 可 以 使 迭代 过 程 快速 收敛 。 在 某 一 
步 ， 点 的 数目 增加 到 包括 粗 网 格 点 和 两 个 粗 网 格 点 之 间 的 额外 点 。 额 外 点 的 初始 值 可 以 通过 
插值 法 求 得 。 在 这 些 较 细 网 格 点 上 继续 进行 计算 。 
随 着 计算 的 推进 ， 网 格 会 越 来 越 细 ， 当 然 也 可 以 
交 赫 进行 粗 网 格 和 细 网 格 的 计算 。 由 于 粗 网 格 更 
快 地 考虑 了 距离 因素 ， 因 而 为 以 后 的 更 细 网 格 的 
形成 提供 了 好 的 起 始点 。 

为 了 方便 ， 网 格 的 大 小 通常 是 2 的 乘 方 。 假 设 ， 
最 细 的 网 格 有 2 x 2 个 点 。 稍 粗 一 点 的 网 格 有 2 -1x 
2"-! 个 点 ,而 再 粗 一 点 的 网 格 则 有 2 x 2 -个 点 。 
图 11-25 示 出 了 将 粗 网 格 点 分 配 到 每 个 处 理 器 上 去 
的 情况 。[Leighton，1992] 指 出 不 同 层 上 的 网 格 最 
合适 的 数目 是 log r、 即 对 1<k< logr 网 格 的 大 小 
为 24 x 24。 

在 有 些 问 题 中 ， 在 解 空间 的 不 同位 置 ， 可 能 
更 适合 采用 不 同 大 小 的 网 格 。 网 格 大 小 应 该 能 调节 以 适合 局 部 计算 (所谓 的 自 适 应 网 格 方法 )。 
这 种 方法 更 多 细节 可 以 在 各 种 研究 论文 中 找到 ， 例 如 ，[De Keyser and Roose，1997]。 


Xt -| > Xk ao 


+(1- wx 





Bl 网 格 点 锐 细 的 网 格 点 















图 11-25 多 网 格 处 理 器 分 配 


11.5 小 结 
本 章 详细 讨论 了 前 面 几 章 中 所 提 到 的 数值 问题 : 
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“ 抢 阵 乘法 的 不 同 并 行 实现 (直接 法 ， 递 归 法 ， 网 格 法 ) 

* 用 高 斯 消去 法 求解 线性 方程 组 及 其 并 行 实现 

* 用 雅 可 比 迭 代 法 求解 偏 微分 方程 组 

“ 与 线性 方程 组 的 关系 

“ 快速 收敛 方法 〈 高 斯 - 赛 德尔 松弛 法 、 红 黑 排 序 法 、 高 阶 差分 法 、 过 度 松 弛 法 、 多 网 
格 法 ) 


推荐 读物 


关于 并 行 数值 方法 主要 权威 的 参考 书 是 [Bertsekas and Tsitsiklis，1989]。 其 他 关于 并 行 数 
值 算法 的 四 年 级 本 科 生 /研究 生 水 平 的 教科 书包 括 {Freeman and Phillips，1992]、[Modi， 
1988] 和 [Smith，1993]。[Grama et al.，2003] 提 出 了 用 稠密 和 稀 玻 和 拖 阵 处 理 并 行 方法 的 重要 观 
点 。[Chaudhuri，1992] 以 矩阵 计算 一 章 为 特色 ， 包 括 处 理 布 尔 矩 阵 的 方法 。 进 一 步 研 究 的 其 
他 主题 还 有 共 圈 梯度 法 和 有 限 元 法 。 关 于 并 行 方 法 的 一 个 精彩 的 额外 信息 源 是 [Van de velde， 
1994]。[Young，1971] 是 关于 线性 方程 组 迭代 解法 的 教科 书 。 描 述 多 网 格 法 的 教科 书包 括 
{Hackbrush, 1985]。 
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习题 
科学 /数值 习题 
11-1 11.2.2 节 中 推导 的 通信 时 间 在 子 和 矩阵 大 小 可 变 的 情况 下 ， 是 否 有 最 小 值 ? 
11-2 修改 递归 n x n 和 矩阵 相 乘 算法 ， 这 里 4 不 是 2 的 乘 方 。 
11-3 分 析 11.2.4 布 中 描述 的 矩阵 相 乘 算法 所 用 到 的 脉动 阵列 ， 推 导 计 算 和 通信 的 方程 。 
11-4 和 拖 阵 相 乘 C = 4 x B， 其 中 
人 02 
-|e 
021 022 
B bi bi, 
-a | 
CC 
ca 
C21 C22 


矩阵 相 乘 的 Strassen 方法 给 出 如 下 : 
Q1= (a1 + a22) (bu + b22) 

Q2 = (az + a ) bu 

Q3 = an (bi2-b2) 

Q4= ax( ~ b+ b2l) 

Qs = (au + a ) b22 

Qe = (~an + a21) (bi + b12) 
Q7 = (qi12—q22 )(p2 + b22) 

clii = Qi1+ Q4-0Q;+ QO7 

C71 = Q2+ 04 

c=Q3+ Qs 

Cc2 = OQ1+ OQ;3~Q2+ 0O6 

给 出 此 算法 的 递归 并 行程 序 。 
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11-5 矩阵 ~ 向 量 乘法 的 一 个 应 用 是 卷 积 (convolution)，、 它 常用 在 数字 信号 处 理 和 图 像 处 理 
上 (参见 第 12 章 )。 给 定常 数 @， ww2， 93，…, wr 的 序列 和 输入 数据 如，…,， Xn 4x-! 的 序 
列 ， 则 卷 积 运算 的 输出 序列 yi, yz,…, yw， 由 下 式 给 出 : 


n 


yi 三 Da x w) 
2 


其 中 ，1 < i< N。 这 个 计算 可 以 描述 成 矩阵 -向 量 相 乘 形 式 (对 于 N = 4,，n = 5): 











Wi 
) Xs Xs X3 MX2 MX 
Ww> 
)2 Xe Xs Xa KX3 Xz 
过 WwW; 
y3 AT Xe Xs Xa 3 
Wa 
ya| [x Xi Xe Xs Xa 
ws 
要 求 开 发 一 个 卷 积 的 并 行程 序 结构 。 
11-6 求 出 具有 下 面 有 限 差分 方程 解 的 偏 微分 方程 : 
x = Kil + Ni 
: 2 
一 之 + Nis 
X= 
， 2 
11-7 开发 一 个 求解 下 面 偏 微分 方程 的 有 限 差 分 方程 : 
Pf oF .27 
Ea Wy + 
替换 11.4 节 中 的 中 心 差分 公式 ， 之 后 编写 出 求解 该 方程 的 并 行程 序 。 假 设 边界 值 固 定 ， 
解 的 维 数 需 被 输入 。 
11-8 写 出 泊 松 方程 五 点 和 九 点 雅 可 比 收 全 公式 。 
of ,0f 
Rt Ee = 8(X,y) 


11-9 针对 3 x 3 点 网 格 画 出 图 11-21 中 的 数组 4 和 向 量 * 的 全 部 内 容 。 
11-10 编写 一 个 能 实现 下 面 两 个 雅 可 比 选 代 公 式 的 并 行程 序 ， 并 确定 哪 一 个 收敛 最 快 。 


f'nDI GA D+ Gy + tA D+ Coyra] 


或 GDB OD GAD Gy- A er A + fy+ A)] 


11-11 重 写 11.4.2 布 中 红 黑 排序 的 伪 代 码 来 避免 求 余 操 作 。 
11-12 为 11.4.2 节 中 高 斯 - 赛 德尔 法 开发 一 个 线性 流水 线 解 ， 并 编写 出 实现 它 的 并 行程 序 。 
11-13 比较 雅 可 比 迭 代 法 的 五 点 、 九 点 、 十 三 点 模板 。 求 出 计算 代价 和 迭代 次 数 之 间 的 
11-14 分 别 写 出 用 下 面 三 种 方法 求解 拉 普 拉 斯 方程 的 并 行程 序 
1) 标准 雅 可 比 和 迭代 
2) 红 黑 排序 迭代 
3) 多 网 格 雅 可 比 克 代 
使 用 256 x 256 的 网 格 点 ， 并 将 4 条 边 初 始 化 为 10.0、5.0、10.0 和 5.0。 当 两 次 迭代 的 差 
值 小 于 0.01 时 ， 停 止 迭 代 。 用 16 台 处 理 器 ， 对 于 标准 迭代 和 红 黑 迭代 方法 ， 将 问题 分 
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11-15 
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成 16 列 ， 每 列 有 256 x 16 个 点 ,一 台 处 理 器 分 到 一 列 。 对 于 多 网 格 选 代 法 ,开始 时 网 
格 大 小 为 16 x 16， 每 10 次 迭代 后 ， 网 格 大 小 增加 1 倍 ， 直 到 达到 网 格 大 小 的 最 大 值 。 
继续 迭代 直到 得 到 解 。 对 其 他 由 粗 到 细 策 略 进行 试验 。 

分 别 给 出 在 11.3.2 布 中 以 条 状 划分 和 循环 划分 实现 的 高 斯 消 元 法 的 系统 效率 。 


现实 生活 习题 


11-16 


11-17 


11-18 


编写 一 个 求解 室内 温度 分 布 问题 (如 第 6 章 习 题 6-15 所 描述 的 ) 的 并 行程 序 ， 要 求 使 
用 高 斯 消去 法 和 回 代 的 直接 方法 而 不 是 迭代 靶 。 只 有 高 斯 消去 法 可 以 并 行 计算 ， 回 代 
只 能 在 一 台 处 理 器 上 和 运行。 首先， 确定 线性 方程 组 4x = 0 中 数组 4 的 元 素 。 这 个 数组 
的 主 对 角 线 上 的 元 素 总 有 非 零 元 素 ， 因 此 没 必 要 使 用 部 分 选 主 元 。 然 后 ， 分 解 问 题 ， 
使 得 连续 的 10 行 由 一 个 进程 处 理 。 

写 一 个 求解 室内 温度 分 布 问题 (第 6 章 习题 6-15 所 描述 的 ) 的 并 行程 序 ， 但 允许 使 用 接 
近 壁 炉 的 较 细 网 格 。 假 设 用 户 可 以 控制 网 格 的 大 小 。 对 自 适应 的 网 格 进行 实验 。 

图 11-26 示 出 了 一 个 装 有 不 同 电子 元 件 的 印刷 电路 板 ， 这 些 电子 元 件 会 产生 热量 ， 从 而 
达到 图 11-26 上 所 示 的 温度 。 编 写 一 个 能 计算 温度 分 布 的 并 行程 序 。 自 己 选择 电路 板 的 
元 件 和 电路 板 的 尺寸 以 及 元 件 的 布局 。 这 个 问题 的 思路 来 源 于 [Avila，1994]。 





板 边界 周围 的 温度 
图 11-26 习题 11-18 的 印刷 电路 板 





第 12 章 图 像 处 理 


本 章 是 “专业 ”的 一 章 ， 它 所 提供 的 信息 可 用 作 并 行 编程 的 课程 设计 。 本 章 内 容 包含 了 图 
像 处 理 中 的 主题 ， 它 们 具有 很 大 的 潜在 并 行 性 。 我 们 从 低层 预 处 理 操作 (low-level preprocessing 
operations ) 开始 讨论 ， 因为 这 些 操作 是 在 图 像 增 强 初期 进行 的 。 有 时 需要 识别 直线 (和 曲线 )， 
为 此 我 们 将 氢 述 完成 这 种 识别 的 称 为 霍 夫 变 换 (Hough transform) 的 算法。 最 后 ， 我 们 将 描 
述 使 用 离散 傅 里 时 变换 实现 将 已 存储 图 像 转换 成 频率 域 的 方法 。 完 成 这 种 变换 的 一 种 快速 的 
计算 方法 称 为 快速 傅 里 叶 变 换 (fast Fourier transform FFT)。 有 关 传 里 叶 变 接 的 资料 ， 除 了 图 
像 处 理 外 ， 还 可 在 许多 其 他 应 用 中 加 以 使 用 。 


12.1 低层 图 像 处 理 


低层 图 像 处 理 将 直接 在 已 存储 图 像 上 进行 操作 ， 以 改善 或 增强 图 像 ， 从 而 有 助 于 人 和 计 
算 机 更 好 地 识别 图 像 。 这 种 图 像 处 理 可 用 在 许多 应 用 场合 ， 包 括 医 疗 诊断 、 警 局 中 指纹 识别 、 
检查 制造 中 有 负 陷 的 部 件 以 及 胶卷 工业 等 。 图 像 首先 由 照相 机 或 其 他 传感器 捕捉 并 以 数字 化 
方式 存储 起 来 。 被 存储 的 图 像 是 由 一 个 二 维 的 像素 (Pixel) (图 元 ) 阵列 表示 的 。 许 多 低层 图 
像 处 理 操 作 都 假设 图 像 是 单 色 的 ， 并 将 像素 看 成 具有 某 一 灰 度 级 (gray level) 或 亮度 。 此 灰 
度 级 有 一 个 从 最 低 到 最 高 值 的 范围 ( 即 灰 度 一 一 grayscale )。 典 型 地 ， 灰 度 被 正则 化 成 从 零 开 
始 ， 零 用 来 表示 黑色 而 用 255 来 表示 和 白色， 因此 一 个 像素 需 用 8 位 表示 。 彩 色 图 像 则 通常 需要 
使 用 三 个 值 ， 每 一 个 表示 一 种 主 色 〈( 红 、 绿 和 蓝 )， 或 是 使 用 像素 值 指向 一 个 查找 表 ， 关 于 这 
一 点 已 在 3.2.1 节 中 提 及 。 

我 们 假设 已 存储 图 像 所 使 用 的 坐标 系 的 原点 在 左上 角 ， 如 图 12-1 所 示 。 图 像 的 像素 被 存 
储 在 二 维 数组 中 ， 一 个 像素 图 (pixmap) P[i][j] 以 及 
各 个 像素 点 的 亮度 可 以 通过 访问 此 数组 得 到 。 这 里 需要 原点 (0.0) 
指出 的 是 ， 从 本 质 上 来 讲 ， 图 像 和 已 存储 信息 两 者 是 一 
一 对 应 的 关系 ， 但 大 型 图 像 文件 可 使 用 压缩 结构 或 使 用 _ 
与 图 像 一 起 存储 的 彩色 查找 表 以 减 小 对 存储 量 的 需求 。 
当然 在 进行 任何 图 像 处 理 操作 之 前 ， 该 文件 必须 复原 ， 

且 信 息 仍 应 以 二 维 数组 排列 。 、 | 

对 已 存储 图 像 信 息 可 以 进行 许多 不 同 操作 ， 通 常 是 图 12-1 像素 图 
从 低层 处 理 开 始 。 低 层 处 理 利用 各 个 像素 值 以 某 种 方式 
对 图 像 加 以 修改 。 通 常 这 些 操作 是 完全 并 行 的 。 例 如 ， 一 个 图 像 通常 具有 “噪声 ”， 这 是 由 传 
感 器 或 环境 所 产生 的 不 希望 的 变化 ， 这 种 噪声 会 改变 实际 的 像素 值 。 理 想 情 况 下 ， 应 去 除 这 
种 噪声 ， 而 只 保留 所 需 的 图 像 。 完 成 这 种 操作 通常 称 为 噪声 清除 (noise cleaning ) 或 噪声 减 
少 (noise reduction ) 。 由 于 图 像 像 素 的 真实 值 是 未 知 的 (否则 就 不 需要 用 传感器 来 检测 了 )， 
因此 有 必要 采用 实验 方法 。 另 一 个 例子 是 对 图 像 边缘 的 检测 ， 这 有 助 于 对 图 像 的 识别 。 边 缘 
是 指 亮 度 的 巨大 变化 。 在 边 毕 检测 中 ， 图 像 中 的 亮度 变化 将 被 增强 或 突出 。 其 他 的 低层 操作 
包括 将 像素 标志 为 属于 某 一 指定 对 象 以 及 对 象 匹配 ， 此 时 一 个 对 象 将 以 某 种 样式 与 一 已 知 对 
象 进行 比较 。 一 种 简单 的 匹配 形式 是 模板 匹配 (template matching )， 这 种 方法 是 将 图 像 与 一 
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个 已 存储 的 模板 进行 比较 。 

有 了 时 我 们 需要 识别 与 直线 和 曲线 有 关 的 那些 像素 。 完 成 这 种 操作 的 有 效 方法 是 使 用 霍 夫 
变换 。 霍 夫 变 换 利 用 像素 坐标 去 发 现 最 符合 要 求 的 线 方 程 。 因 此 我 们 将 霍 夫 变换 归 为 低层 图 
像 处 理 (但 不 是 预 处 理 )。 霍 夫 变换 非常 适合 于 并 行 实现 。 

在 某 些 应 用 中 ， 如 果 能 将 图 像 从 原来 的 空间 域 转换 成 频率 域 将 是 非常 有 益 的 。 例 如 ， 在 
对 数字 图 像 进行 滤波 时 就 要 进行 这 种 变换 。 这 类 变换 也 是 对 像素 值 进行 操作 ， 以 生成 一 个 与 
已 数字 化 图 像 频 率 有 关 的 一 个 新 的 值 集 。 在 本 章 末尾 我 们 将 看 到 这 种 变换 。 

计算 需求 

在 开始 讨论 各 种 低层 操作 之 前 ， 让 我 们 首先 看 看 为 什么 有 必要 进行 并 行 处 理 。 假 设 一 个 
像素 图 有 1024 x 1024 个 像素 ， 对 于 这 样 的 像素 图 以 及 8 位 的 像素 ， 需 要 22" 字 节 (1M 字 节 ) 的 
存储 空间 ， 就 今天 的 技术 而 言 ， 这 个 需求 并 非 是 不 合理 的 ， 但 更 关键 的 因素 则 是 计算 速度 。 
假定 对 每 个 像素 必须 进行 一 次 操作 ， 那 么 对 一 帧 的 操作 就 需 22 次 。 当 今 的 计算 机 速度 已 相当 


” 快 ， 但 即使 每 次 操作 只 需 10-* 秒 /操作 (10ns/ 操 作 )， 总 计 也 需 10ms。 在 实时 应 用 中 ， 计 算 速 


度 必 须 术 到 帧 速率 (通常 为 每 秒 60 帧 ~85 帧 )。 图 像 中 的 所 有 像素 必须 在 一 帧 的 时 间 内 ， 即 
12~16ms 之 内 ， 处 理 完毕 。 通 常 许多 高 复杂 性 操作 必须 完成 的 不 只 是 一 次 操作 。 这 种 需求 对 
顺序 计算 机 而 言 是 如 此 人 迫切， 导致 经 常 需 开 发 专用 的 图 像 处 理 硬 件 。 这 类 专用 硬件 会 继续 用 
信号 处 理 蕊 片 加 以 开发 。 但 是 这 类 系统 缺少 真正 的 并 行 计算 机 所 能 提供 的 灵活 性 。 此 外 ， 采 
用 专用 硬件 将 难于 适应 新 的 图 像 处 理 算法 。 


12.2 点 处 理 


图 像 处 理 操 作 可 分 为 产生 的 输出 基于 单个 像素 (点 处 理 ) 的 值 的 操作 、 产 生 的 输出 基于 
邻近 像素 组 (局 部 操作 ) 的 值 操作 、 产 生 的 输出 基于 图 像 所 有 像素 (全 局 操作 ) 的 值 操作 。 
点 运算 符 不 需要 图 像 中 其 他 像素 的 值 ， 因 此 并 行 化 点 处 理 是 非常 简单 且 是 完全 并 行 的 ; 局 部 
操作 也 是 可 高 度 并 行 化 的 。 点 处 理 的 例子 包括 阅 值 化 (thresholding)、 对 上 比 度 扩展 (contrast 
stretching ) 和 灰 度 级 减少 (gray level reduction )。 

1. 阔 值 化 处 理 

在 单 级 阔 值 化 处 理 中 ， 将 保留 所 有 具有 超过 预定 阔 值 的 像素 ， 而 小 于 该 益 值 的 其 他 像素 
被 归 约 为 0， 即 对 于 一 个 给 定 像素 2 ， 对 每 个 像素 进行 的 操作 为 

if(x< 国 值 )x = 0;else x:=1 

2. 对 比 度 扩 展 

在 对 比 度 扩 展 中 ， 灰 度 级 的 范围 被 扩展 到 可 更 清楚 地 观察 到 图 像 细节 部 分 。 对 于 给 定 处 
于 x 和 mx; 范围 中 的 像素 值 x*"， 对 比 度 通过 以 下 公式 将 扩展 到 xi 和 x 范围: 





Xp — Xp 
X= (xX, —X) + Xi 
Xn 一 和 


例如 在 医疗 图 像 中 ， 通 常 如 骨头 那样 的 密集 结构 会 比如 肌肉 或 器 官 那样 的 软 结构 吸收 多 
得 多 的 人 射 能 量 〈 由 X 射 线 、 超 声 或 其 他 技术 产生 )。 对 比 度 扩 展 通 常用 来 放大 软组织 部 分 的 
灰 度 (也许 只 有 5% 到 20%)。 这 样 做 之 后 ， 具 有 最 小 密度 软组织 灰 度 值 将 成 为 可 显示 像素 亮度 
的 一 极 值 ， 而 具有 有 最 大 密度 软组织 灰 度 值 将 成 为 另 一 极 值 。 对 比 度 扩展 也 用 于 如 骨头 那样 
的 密集 结构 以 使 细微 裂缝 那样 的 微小 变化 也 能 看 得 清楚 。 
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3. 灰 度 级 减 小 

在 灰 度 级 减 小 中 ， 用 来 表示 灰 度 级 的 位 数 将 减少 ， 也 许 这 也 将 减少 存储 需求 。 实 现 这 种 
减 小 的 一 个 简单 方法 是 舍弃 低位 有 效 位 ， 但 这 种 方法 仅 当 图 像 中 的 灰 度 级 的 全 部 范围 均 能 被 
很 好 表示 时 才 会 比较 有 效 ， 且 能 保留 足够 信息 。 


12.3 直方 图 


通过 建立 图 像 的 直方 图 (histogram ) 能 够 发 现 
灰 度 级 的 变化 。 在 阔 值 化 处 理 之 前 ， 一 个 直方 图 能 
用 来 确定 一 个 合适 的 阔 值 级 。 直 方 图 的 生成 是 一 个 
全 局 操作 ， 因 为 在 操作 中 需要 用 到 所 有 的 像素 值 。 
事实 上 ， 直 方 图 是 非常 有 用 的 。 一 个 图 像 的 直方 图 
是 由 指明 图 像 中 处 于 每 个 灰 度 级 的 像素 数 的 函数 所 
组 成 的 。 图 12-2 中 示 出 了 一 个 可 能 的 直方 图 。 0 

生成 一 个 直方 图 的 顺序 代码 可 简单 地 表示 为 : 图 12-2 图 像 直方 图 


for(i = 0; i < height max; x++) 


像素 个 数 


灰 度 级 255 


for(j = 0; j < width max; y++) 
hist[p[i][j]}] = hist[lplij[(ji]} + 1; 
其 中 像素 被 包含 在 数组 pf ] { ] 中 ， 而 hist{k] 将 保存 具有 第 级 灰 度 级 的 像素 数 。 

上 述 的 顺序 代码 类 似 于 第 8 章 中 所 述 的 将 数 加 到 一 个 昧 加 和 的 代码 ， 因 此 类 似 的 并 行 求解 
方法 可 用 来 计算 直方 图 。 可 将 内 层 循环 展开 并 将 它们 映射 到 各 个 处 理 器 上 。 对 于 共享 存储 器 
求解 方法 ， 语句: hist[p[i][j]]=hist{p[i][j]]+1 将 需要 放 入 一 个 临界 区 。 一 般 而 
言 ， 我 们 应 使 各 个 处 理 器 完成 各 自 的 局 部 累加 ， 此 后 再 进行 全 局 累加 以 减少 对 全 局 单元 访问 
的 延迟 。 对 于 消息 传递 方法 ， 由 各 个 独立 的 处 理 器 完成 部 分 累加 ， 然 后 由 一 个 主 进 程 替代 临 
界 区 来 完成 最 后 累加 。 . 


12.4 平滑 、 锐 化 和 了 噪声 消减 


现在 我 们 转向 下 一 级 的 预 处 理 操作 一 一 平 清 (smoothing )、 锐 化 (sharpening ) 和 嗓 声 消 
减 (noise reduction)。 由 于 这 些 操 作 均 需要 邻近 像素 值 ， 因 此 它们 均 是 局 部 操作 。 已 存 图 像 
可 能 含有 随机 “噪声 ”或 是 其 他 不 良 影响 的 结果 。 平 少将 在 图 像 区 域内 抑止 亮度 的 巨大 波动 ， 
并 可 用 减少 高 频 成 分 来 做 到 这 一 点 。 锐 化 将 突出 变化 和 增强 细节 ， 它 可 用 两 种 方法 加 以 实现 : 
第 一 种 方法 是 减少 低频 成 分 ， 第 二 种 方法 是 通过 微分 突出 变化 。 品 声 消减 将 抑止 图 像 中 噪声 
信号 。 噪 声 信 号 本 身 可 能 具有 各 种 形式 ， 可 能 是 与 图 像 信 号 完全 无 关 的 一 个 随机 人 信号。 平滑 
将 减 小 噪声 ; 但 也 将 使 图 像 变 得 模糊 。 减 小 完全 是 随机 噪声 信号 的 一 种 方法 是 ， 多 次 捕获 图 
像 并 取 每 一 像素 值 的 平均 值 。 可 以 容易 证 明 : 随 着 所 用 图 像 数目 增加 ， 平 均 化 的 图 像 将 接近 
于 无 噪声 图 像 (假设 噪声 是 不 相关 的 ) [Gonzalez and Woods，1992]。 这 种 方法 一 定 要 求 每 个 
图 像 处 于 相同 位 置 。 


12.4.1 平均 值 


一 个 简单 的 平滑 技术 是 取 一 组 像素 的 平均 值 (mean 或 average) 作为 中 心 像素 的 新 值 (一 
般 推荐 使 用 mean， 表 示 两 极 值 的 中 间 值 )。 它 需要 对 欲 更 新 像素 的 周围 像素 组 进行 访问 ， 并 完 
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成 局 部 操作 。 通 常 一 个 组 的 大 小 为 3 x 3， 如 图 12-3 所 示 。 对 于 一 -个 给 定 的 3 x 3 组 ， 其 计算 为 : 
_ Xo+XI+X + NX +X + Xs + Xe t+ Xt+ Xe 
4 
其 中 x 是 x 的 新 值 o 
1. 顺序 代码 
平均 值 操作 需要 对 所 有 像素 进行 ， 使 用 像素 的 原始 值 。 对 每 一 像素 计算 平均 值 需要 9 步 ， 
因此 "个 像素 需要 9" 步 (顺序 时 间 复 杂 性 为 O (n))。 
2. 并 行 代码 
首先 假定 为 每 一 个 像素 分 配 为 一 个 处 理 器 (不 大 可 能 是 给 定 像素 
数 ， 除 了 某 些 非常 专用 的 图 像 处 理 硬件 之 外 )。 一 种 直接 的 并 行 实现 将 
需要 每 个 处 理 器 完成 9 步 操作 ， 而 所 有 处 理 器 同时 进行 操作 。 由 于 对 像 
素数 据 的 访问 仅 是 读 访问 (除了 最 后 的 更 新 以 外 ， 它 是 唯一 的 像素 )， 图 12.3 3 x 3 组 的 像素 什 
对 共享 存储 器 实现 而 言 ， 不 会 出 现 冲 突 。 
并 行 方法 能 利用 每 个 处 理 器 为 它 相 邻 的 处 理 器 和 自身 进行 部 分 和 的 计算 ,假定 像素 值 是 xo、 
让 、w、N、X4、 加 、X6、 和 7 和 如， 如 图 12-3 所 示 ， 通 过 将 计算 分 成 四 个 数据 传送 步 可 减少 计算 
步 数 ， 如 图 12-4 所 示 。 


硅 二 员 抽 | 


第 1 步 每 个 像素 加 上 来 第 ? 炒 丝 个 像素 加 上 来 第 3 步 每 个 像素 加 上 来 第 4 步 每 个 像素 加 上 来 
自 左 方 的 像素 方 的 像素 自 上 方 的 像素 自 下 方 的 像素 


图 12-4 平均 值 计算 所 需 的 四 步 数 据 传递 


每 个 处 理 器 以 锁 步 方式 完成 以 下 的 四 步 : 

第 1 步 ”每 个 处 理 器 接收 来 自 左 边 的 像素 值 ， 并 将 此 值 加 到 自身 的 像素 值 上 生成 累加 和 。 
中 心 处 理 器 (x) 将 生成 x3 + x 的 累加 和 |。 

第 2 步 ”每 个 处 理 器 接收 来 自 右 边 的 像素 值 ， 并 将 此 值 加 到 自身 的 累加 值 上 。 中 心 处 理 器 
将 生成 za + x4+xs 累 加 和 和。 

第 3 步 “” 每 个 处 理 器 接收 来 自 上 边 的 ， 在 第 2 步 中 生成 的 累加 值 ， 并 将 其 加 到 自身 的 累加 
和 中 ， 为 了 进行 下 一 步 的 计算 ， 每 个 处 理 器 必须 保留 原来 的 累加 值 。 中 心 处 理 器 生成 累加 和 
加 + Xi1+X2+ 训 + X4 +X5， 与 此 同时 ， 它 必须 将 x3 + xs + x 分 开 保存 。 

第 4 步 ” 每 个 处 理 器 接收 来 自 下 方 的 ， 在 第 2 步 中 生成 的 累加 值 ， 将 其 加 到 自身 的 累加 值 
上 。 此 时 中 心 处 理 器 将 生成 ze + Xi +X2 十 X33 十 Xa 十 XX 十 X6 十 7 十 Xs 的 累加 和 。 

图 12-5 中 示 出 了 执行 以 上 每 一 步 后 生成 的 结果 。 最 后 ， 每 个 进程 用 9 除 自身 的 累加 和 以 获得 它 
们 的 平均 值 。 对 于 n 个 像素 来 说 ， 总 共 需 4 步 通信 /加 和 1 步 除 。 显 然 ， 此 算法 也 可 使 每 个 处 理 
器 处 理 一 组 像素 ， 但 此 时 每 个 处 理 器 中 的 通信 和 运算 步 数 将 会 增加 (习题 12-1)。 

应 注意 的 是 ， 这 类 计算 很 自然 地 提示 使 用 单 指令 多 数据 模型 即 SIMD ， 因 为 每 个 进程 将 同 

时 完成 相同 操作 。 对 于 通用 多 处 理 机 系统 ， 可 使 用 单程 序 多 数据 模型 即 SPMD， 
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Xo+ Xl + Xz 


X0 十 XI 十 和 


X00 Xi 十 Xz 
X3+ X4 十 75 
X6 十 XI7 十 X8 


[xm 
X6 十 27 十 X8 


) 第 3 步 d) 第 4 步 
图 12-5 并 行 的 平均 数据 累加 





12.4.2 中 值 


刚才 描述 的 平均 值 方法 会 使 边缘 和 其 他 锐 化 细节 变 得 模糊 。 为 减 小 噪声 ， 可 采用 另 一 种 方 
法 , 即 用 邻近 像素 的 中 值 (median) 来 替代 原来 的 像素 值 。 当 图 像 属 于 强 “ 尖 峰 ”(“spike-like”) 
图 像 时 [Gonzalez and Woods，1992]， 这 种 方法 在 保持 边缘 的 锐 化 性 方面 就 显得 更 为 有 效 。 将 
像素 值 从 最 小 到 最 大 按 序 排 列 ， 并 选取 位 于 中 间 的 像素 值 (假定 像素 数 为 奇数 ) 就 可 得 到 中 


值 。 对 于 3 x 3 像素 组 ， 假 定 像素 值 按 递 升 序 排列 为 yp、yi、y2、 六 、ys、ys、ye、 六 和 ys， 则 中 值 " 


便 为 内 。 这 种 操作 要 求 组 中 所 有 值 必 须 先 排序 ， 然 后 用 第 5 个 元 素 趟 代 像素 的 原来 值 。 采 用 如 
冒 泡 排序 那样 的 顺序 排序 算法 ， 将 依次 找到 较 小 值 ， 因 而 事实 上 排序 在 获得 第 5 个 最 低 值 后 便 
可 终止 。 在 这 种 情况 下 ， 找 到 每 一 个 中 值 所 需 的 步 数 为 8 + 7 + 6 +5+4=30， 而 对 n 个 像素 便 
需 30n 步 。 

并 行 代码 

可 采用 10.3.1 节 中 的 扭曲 排序 (网 格 排序 算法 中 之 一 ) 来 实现 并 行 化 。 扭 曲 排序 将 排序 分 
成 两 个 重复 阶段 ， 即 排序 行 的 内 容 和 列 的 内 容 ， 并 且 在 排序 行 时 交替 改变 排序 方向 。 为 方便 
并 行 操作 和 提高 速度 可 采用 另 一 种 近似 的 排序 算法 ， 它 只 需 使 所 有 行 和 列 排序 一 次 ， 且 各 行 
均 以 相同 方向 排序 。 在 每 一 阶段 使 用 有 效 的 冒 泡 排 序 且 只 和 需 三 步 。 首 先 ， 对 每 一 行进 行 比较 
和 交换 操作 ， 它 需要 三 步 。 对 于 第 ; 行 ， 我 们 有 : 


x, 


<> 
i,j-l Xi j 


j 
Xi Xi jl 


Ki ji hi 
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其 中 x ;表示 第 i 行 第 j 列 元 素 的 值 ， 并 且 司 代表 “比较 和 交换 ， 如 果 左 边 灰 度 级 大 于 右边 

灰 度 级 ”( 通 常 的 冒 泡 排 序 动作 是 将 最 大 值 冒 泡 到 右边 )。 然 后 ， 再 用 三 次 比较 和 交换 操作 对 
各 列 进行 排序 。 对 于 第 j 列 ， 我 们 有 : | 
x 


i Xi 
Xi Xi 


Xi > Xi 


图 12-6 中 示 出 了 全 过 程 。xij 的 值 将 取 第 5 个 最 大 像素 值 。 该 算法 并 不 总 是 选取 第 5 个 最 大 值 。 
例如 ， 如 果 第 5 个 最 大 值 为 em (在 图 12-3 中 )， 且 它 也 是 所 在 行 中 的 最 大 值 ， 则 它 将 被 保留 在 原 
来 位 置 而 不 被 此 算 革 选中。 尽管 如 此 ， 此 算法 是 一 个 合理 的 渐 近 算法 ， 如 果 每 个 像素 分 配给 
一 个 处 理 器 ， 则 整个 图 像 仅 需 6 步 就 可 完成 取 中 值 。 同 样 ， 该 算法 可 扩展 为 每 个 处 理 器 处 理 一 
组 像素 。 习 题 12-2 将 探讨 该 算法 的 精度 。 


行 中 最 大 值 行 中 次 大 值 


Ran Ban Bane 


图 12-6 需 六 步 的 求 中 值 近似 算法 
12.4.3 ”加 权 掉 码 


12.4.1 节 的 简单 平均 方法 可 由 一 个 带 权 值 的 3 x 3 掩 码 加 以 描述 ， 该 掩 码 描述 了 用 于 求 平均 
值 的 每 一 个 像素 值 的 总 量 。 为 叙述 方便 ， 假定 权 值 为 wo、 W1、W2、W3、W4、W5、W6、Ww7 和 wsg， 
且 像 素 值 为 Ko、X1、X2、X3、X4、Xs、X6e、X7 和 XxXg。 新 的 中 心 像素 值 x% 由 下 式 决 定 : 
WoXo + WX + WaXy + WaXs + WaXs + WXs + WeXe + WiX; + Ws Xs 
4 eT 
其 中 比例 因子 Wk 是 在 操作 后 用 来 维持 正确 灰 度 平衡 用 的 。 通 常 k 值 由 wo + wi + wa + ws + wa 十 
ws + ws + w7 确定 。 由 w 和 x 两 函数 生成 的 积 (wixi)) 的 总 和 是 f 与 w 的 (离散) 互相 关 函 数 
( 记 作 f@ w) [Haralick and Shapiro，1992]。 
图 12-7 中 画 出 了 对 3 x 3 掩 码 的 操作 ， 此 3 x 3 掩 码 操作 应 用 到 图 像 中 的 所 有 像素 。 处 于 图 
像 边界 的 那些 像素 将 不 会 有 邻近 像素 的 全 集 。 掩 码 i 结果 
解决 这 一 问题 的 最 简单 的 方法 是 将 图 像 沿 每 一 
边 扩 展 一 个 像素 并 对 这 些 像素 赋 于 一 个 固定 
值 ， 例 如 赋予 与 它 最 邻近 的 像素 同样 的 值 ， 或 
者 干脆 赋予 零 。( 注 意 ， 每 个 局 部 图 像 处 理 算 
法 必须 考虑 有 关 边 界 条 件 。) 图 12-7 使 用 3 x 3 的 加 权 掩 码 
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虽然 通常 对 所 有 图 像 处 理 操 作 的 掩 码 大 小 为 3 x 3， 但 也 可 使 用 其 他 大 小 ， 例 如 5x 5、9 x 
9 以 及 11 x 11。 一般 总 是 选 奇 数 ， 这 样 就 只 有 一 个 中 心 像素 。 对 于 12.4.1 节 中 的 平均 值 操作 ， 
其 所 有 权 值 为 1， 如 图 12-8 所 示 的 掩 码 中 ， 它 的 比例 因子 为 19。 但是， 权 值 不 一 定 全 要 为 1， 
也 不 必 全 相同 。 例 如 图 12-9 中 的 掩 码 是 用 来 减少 噪声 的 ， 此 处 还 有 许多 其 他 可 能 的 掩 码 。 若 
使 权 值 为 负 就 可 达到 锐 化 效果 。 图 12-10 中 示 出 了 一 种 锐 化 掩 码 。 用 这 种 掩 码 进行 的 计算 是 : 


BX4 — Xo ~ XI— Xs ~ Xy— Xs — Xe — Xi ~ Xs 


9 


Xa 





图 12-8 ”计算 平均 值 的 掩 码 图 12-9 噪声 消减 的 掩 码 图 12-10 高 通 锐 化 滤波 器 掩 码 378 
如 果 有 关 权 值 的 某 种 条 件 满足 的 话 ， 可 将 计算 分 解 成 先进 行 行 操作 ， 然 后 完成 列 操作 。 
有 关 此 技术 的 细节 以 及 用 于 各 种 用 途 的 许多 其 他 捧 码 ， 可 参见 [Haralick and Shapiro，1992]。 


12.5 边缘 检测 


为 进行 计算 机 识别 ， 从 图 像 的 其 他 对 象 中 区 别 出 所 需 识 别 对 象 ， 常 常 需要 增 亮 对 象 边缘 
(边缘 检测 )， 其 中 边缘 是 指 在 灰 度 级 强度 上 有 显著 变化 。 


12.5.1 梯度 和 幅度 


让 我 们 首先 考虑 一 维 灰 度 级 函数 (x) (例如 / OQ 
沿 行 方向 )。 如 果 对 此 函数 六 (x) 进 行 微分 ， 则 一 亮度 变化 . 
阶 求 导 31/3x 就 表明 了 梯度 变化 ， 而 在 变化 时 将 出 
现 一 个 正 向 和 负 向 尖端 。 而 函数 的 变化 方向 ( 增 
加 或 减少 方向 ) 可 由 如 图 12-11 所 示 的 一 阶 导数 一 阶 导数 


的 极 性 来 加 以 标识 。 图 12-11 中 还 示 出 了 二 阶 导 

数 9211az2， 它 在 转换 处 将 穿越 零点 ， 这 可 能 有 助 

于 识别 转换 的 精确 位 置 。 ns 天 一 修一 
一 个 图 像 是 一 个 二 维 的 离散 化 的 灰 度 级 函数 


fx，y)。 它 的 灰 度 级 改变 有 一 个 梯度 幅 值 (或 简 图 12-11 用 微分 进行 边缘 检测 
称 梯度 ) 和 一 个 用 角度 表示 的 梯度 方向 ， 这 里 是 相对 于 y 轴 的 角度 ， 如 图 12-12 所 示 。 对 给 定 ”79 
的 二 维 函 数 /x，)), flx，)) 的 梯度 ( 幅 值 ) Vf 由 下 式 给 


而 梯度 方向 用 角度 给 定 : 


g(x,y) = tan™ 
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两 种 掩 码 。 这 里 ， 导 数 可 渐 近 地 表示 为 ; 
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其 中 ,oq 是 与 y 轴 的 夹 角 ( 见 图 12-12)。 梯 度 可 近似 地 表示 成 : 


国名 亲属 
VF 十 加 








Ea 
少 





以 减少 所 需 计算 量 。 
12.5.2 边缘 检测 掩 码 


对 于 离散 函数 ， 导 数 可 近似 地 用 差分 来 代替 。 使 用 带 权 
掩 码 可 用 若干 种 方法 数字 地 实现 求 导 。69//3x 项 是 指 * 方 向 差 
分 ， 而 3f/9y 为 y 方 向 差分 。 因 此 我 们 就 可 取 行 中 相 邻 像素 灰 。 ”图 12-12 灰 度 级 梯度 和 方向 
度 级 之 差分 和 列 中 相 邻 像素 之 差分 。 假 定 有 一 个 如 图 12-3 中 所 示 的 3 x 3 像素 值 的 集 。 我 们 可 
考虑 用 像素 上 和 x 的 值 来 计算 渐 近 梯度 以 得 到 9f/3x， 用 xy 和 x 以 得 到 3W9y， 即 : 


恒定 强度 





of 
一 一 之 区 一 大 
ms 
Fn 
oy 


从 而 有 
Vf=he x+ -xl 
需要 使 用 两 个 掩 码 ， 一 个 用 来 得 到 x7 一 x+， 而 另 一 个 用 来 获得 xs -为 。 每 一 个 掩 码 的 结果 的 绝 
对 值 将 加 在 一 起 。 可 使 用 负 的 权 值 来 实现 减法 。( 为 进行 求 导 ， 未 示 出 任何 比例 因子 ， 但 若 要 
获取 合适 对 比 度 ， 就 需要 选择 比例 因子 )。 
1. Prewitt 算 子 
使 用 更 多 的 像素 值 就 可 获得 更 好 的 结果 。 例 如 ， 近 似 梯 度 可 由 下 式 得 到 : 


Ga) + 0 -+0 -5) 


Yr, — Xo)+(xs —X3) + (Xe — Xe) 
Ox . 
然后 可 得 
Vf = ~ Xo +Xiy— XI+Xg -xo|+ |x, — Xo + Xs ~ XX + x -xe| 
它 需要 使 用 两 个 称 为 Prewitt 算 子 的 3 x 3 掩 码 ， 如 图 12-13 所 示 。 同 
样 ， 每 个 掩 码 的 结果 绝对 值 需 加 在 一 起 。 
2. Sobel 算 子 
这 是 一 个 非常 流行 的 边缘 检测 算 子 。 它 使 用 如 图 12-14 所 示 的 


全 = 人 +2x7 二 区) 一 (0 +2x) +X,) 


of 


ree: +.2xs + Xe) ~ (Xo + 2xX3 + Xe) 


实现 一 阶 导数 的 算 子 将 增强 噪声 。 然 而 ，Sobel 算 子 同 时 具有 平滑 图 12-14 Sobel 算 子 
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作用 。 由 Sobel 的 两 个 掩 码 算 子 可 算得 9//3x 和 91/9y， 并 可 方便 地 计算 梯度 Vf 和 梯度 方向 b。 图 
12-15 示 出 了 一 个 图 像 和 Sobel 算 子 的 效果 。 





b) Sobel 算 子 的 效果 
图 12-15 用 Sobel 算 子 进行 边缘 检测 


3. 两 种 掩 码 并 行 代码 


因为 两 种 掩 码 的 结果 相互 独立 ， 因 此 只 要 提供 充分 资源 两 者 就 可 同时 完成 。 一 种 并 行 实现 . 


方法 是 ， 对 每 一 种 掩 码 进行 如 图 12-5 中 所 示 的 四 步 操 作 ， 不 同 之 处 是 在 进行 加 法 时 要 带 上 权 值 。 
4. 拉 普 拉 斯 算 子 
代 之 以 一 阶 导数 ， 可 使 用 二 阶 求 导 进 行 边缘 检测 ， 因 为 边缘 可 导致 一 个 可 识别 的 输出 
(一 个 正 向 和 一 个 负 向 脉冲 ， 见 图 12-11)。 拉 普 拉 斯 二 阶 导数 的 定义 为 : 
2 fo 
V /| 
可 使 用 多 种 差分 方法 渐 近 地 求解 上 式 。 它 可 近似 地 表示 为 : 
Vf =4xs (x +X +Xs +X) 
而 这 可 以 借助 图 12-16 所 示 的 单 掩 码 得 到 。 中 心 像素 x4 可 使 用 四 个 相 邻 像素 加 以 更 新 ， 图 12-17 
中 对 此 做 了 说 明 (x = 4xs-x1-x3-xs-x7 )。 应 注意 的 是 ， 与 掩 码 相 交叉 的 固定 灰 度 级 的 计算 ， 
其 计算 结果 将 会 是 零 。 通 常 在 拉 普 拉 斯 算 子 (以 及 所 有 边缘 检测 算 子 ) 作用 后 ， 需 再 加 上 一 
个 阔 值 化 操作 以 获得 黑 或 白 的 像素 。 图 12-18 中 示 出 了 拉 普 拉 斯 算 子 作用 于 图 12-11 中 原 图 像 
后 的 效果 (无 噪声 )。 不 幸 的 是 ， 拉 普 拉 斯 算 子 通常 在 边缘 检测 时 对 噪声 过 于 敏感。 在 拉 普 拉 
斯 算 子 后 再 施 以 阔 值 算 子 ， 往 往 可 以 改进 单 用 拉 普 拉 斯 算 子 进行 边缘 检测 的 效果 《见习 题 12- 
7)。 事 实 上 ， 阔 值 化 通常 能 使 所 有 边缘 检测 方法 得 到 改进 。 





图 12-16 拉 普 拉 斯 算 子 图 12-17 在 拉 普 拉 斯 算 子 中 使 用 的 像素 
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12.6 霍 夫 变换 


霍 夫 变换 [Hough，1962] 的 目的 是 要 寻找 能 最 好 适合 于 图 像 中 像素 集 的 线 方程 的 参数 。 霍 
夫 变换 是 模板 匹配 的 基础 ， 它 也 是 将 一 个 对 象 转换 成 可 供 识 
别 的 向 量 集 或 作 其 他 用 途 的 基础 。 从 理论 上 边缘 检测 将 勾 划 
出 对 象 的 轮廓 ， 但 到 目前 为 止 我 们 所 叙述 的 边缘 检测 可 能 在 
边缘 中 留 下 某 些 间 随 ， 而 霍 夫 变 换 可 用 来 填补 这 些 间隙 。 逢 
夫 变 换 将 对 图 像 中 的 所 有 像素 作用 ， 因 而 它 是 全 局 操作 而 非 
前 几 节 所 遇 到 的 局 部 操作 。 

一 条 线 可 由 方程 y = ax + b 加 以 描述 ， 其 中 参数 a 和 b 唯 
一 地 描述 了 一 条 特定 线 ，a 为 斜率 ，b 为 与 ) 轴 的 截 距 。 此 方 
程 便 是 通常 的 针 率 - 截 距 形式 。 一 个 像素 可 有 无 限 多 条 线 经 
过 它 。 如 果 a 和 b 是 离散 化 的 ， 则 便 只 存在 有 限 条 线 经 过 该 全 
素 。 可 以 寻找 所 有 点 的 所 有 线 ， 且 可 能 找到 图 像 中 最 可 能 的 | 
那些 线 ， 这 些 线 会 使 最 多 的 像素 寝 异 射 到 它们 ， 但 这 种 寻找 。“ 四 8 拉 靖 拉 四 重 了 的 区 和 
在 计算 上 是 非常 费时 的 [O Ce) 算法 ]。 

然而 ， 我 们 可 将 线 方程 改写 为 





b=-xat+y 


图 12-19 中 画 出 了 原 (x，y) 平面 中 的 线 以 及 以 参数 (a, b) 为 坐标 的 称 为 参数 空间 中 的 线 。 


(为 清晰 起 见 ， 我 们 仍 回 到 通常 的 xz- 坐标， 而 不 是 原点 在 左上 和 角 的 坐标 )。 在 参数 空间 中 ， 线 
由 单 点 表示 ， 这 意味 着 处 于 x*-y 空 间 中 指定 线 上 的 每 一 点 〈 即 对 于 指定 的 5 和 2 的 值 ) 都 将 映射 
到 参数 空间 中 的 同一 点 。 所 以 当 将 线 映 射 到 a-b 空 间 中 的 一 点 上 时 ， 我们 可 以 借助 简单 的 计数 
来 找到 x 一 y 空 间 中 处 于 同一 线 上 的 点 数 。 

下 面 让 我 们 来 看 看 如 何 实现 这 一 方法 。 在 原 x-y 空 间 中 会 有 许多 线 通过 单 点 ， 而 每 一 条 线 将 
映射 到 a-b 空 间 中 的 不 同 点 ， 它 只 受 a 和 4b 的 精度 约束 。 事 实 上 ， 单 点 (HH，y1) 可 映射 到 a-b 空 
间 中 线 b =-xia + 的 各 个 点 上 。 在 映射 过 程 中 ， 将 使 用 离散 值 作为 粗略 的 规定 精度 ， 而 计算 将 
被 舍 和 人 到 最 接近 可 能 的 a-b 坐 标 。 例 如 ， 每 个 a 和 4b 可 被 分 成 100 个 值 。 对 于 每 一 个 (a，b) 值 有 
相应 的 一 个 累加 器 或 计数 器 。 对 于 x-y 空 间 中 的 每 一 点 都 要 进行 这 种 映射 处 理 。 将 相应 的 累加 
器 不 断 增 量 ， 就 可 记录 下 那些 已 得 到 的 a-b 点 。 因 此 ， 每 一 个 累加 器 将 有 映射 到 参数 空间 中 单 
点 的 像素 数 ， 从 而 使 我 们 可 确定 在 x-y 空 间 中 每 一 条 可 能 线 上 的 像素 数 。 最 后 ， 我 们 选择 在 参 
数 空间 中 具有 局 部 最 大 像素 数 的 那些 点 作为 线 ， 从 而 可 找到 x-y 空 间 中 最 可 能 的 那些 线 。 


sb= -Xaty 









图 像 中 的 像素 


a) (x,y) 平面 b) 参数 空间 
图 12-19 将 线 映射 到 (a,，b) 空间 
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不 幸 的 是 ， 这 一 方法 对 于 垂直 线 ( 即 斜率 a 为 无 限 大 ， 以 及 与 y 轴 截 距 5 为 无 限 大 ) 以 及 那 

些 接近 垂直 线 的 线 是 无 效 的 。 为 避免 这 一 情况 ，[Duda and Hart，1972] 提 议 ， 应 将 线 方程 转换 

成 极 坐标 (标准 表达 式 ) 形式 : 

六 = XcosO + ySinb 

其 中 r 是 原 (x，y) 坐标 系 中 原点 到 线 的 垂直 距离 ， 而 6 是 r 和 x 轴 的 夹 角 ， 如 图 12-20 所 示 。6 

值 将 以 度 来 表示 ， 且 它 也 是 该 线 的 梯度 角 (相对 于 x 轴 )。 每 一 条 线 将 映射 到 (r, 6 ) 空间 中 的 
单 点 。 而 如 果 与 x 轴 有 正 截 距 ， 一 条 垂 线 将 简单 地 映射 到 一 点 ， 且 6 = 0 ， 而 如 果 与 x 轴 有 负 截 

距 ， 则 6 就 等 于 180" 。 一 条 水 平 线 的 6 = 90"。x-y 空 间 中 的 每 一 点 将 上 映射 到 (r, 6 ) 空间 中 的 一 

条 曲线 上 ， 即 (x;，y1) 映射 到 r = zicosg + yising。 





y=ax+b 







r=xcos0+ysing 


(9) 






0 





a) (x,y) 平面 b) (x, 8) 平面 
图 12-20 将 一 条 线 映射 到 (7, 8 ) 空间 


应 指出 的 是 ， 不 一 定 非 要 使 用 极 坐 标 标 准 表 达 式 ， 例 如 ，[Krishnaswamy and Banerjee， 
1997] 在 他 们 的 论著 中 使 用 通常 的 斜率 - 截 距 方程 形式 ， 但 为 了 避免 出 现 无 限 大 值 的 可 能 性 ， 
将 斜率 分 成 四 个 区 ，0 到 mr/4、/4 到 my2、m/2 到 3r/4、 和 3m/4 到 r。 对 于 斜率 在 0 到 mx/4 范 围 内 的 
那些 线 ， 处 理 按 常 规 进行 ， 而 对 处 于 其 他 区 域 的 线 ， 则 坐标 要 作 相 应 改变 。 更 多 细节 请 参见 
[Krishnaswamy and Banerjee，1997] 。 

1. 实现 

图 12-21 中 示 出 了 原点 在 左上 和 角 的 图 像 坐 标 系 的 标准 表示 形式 。 注 意 其 中 的 x 和 y 值 只 能 为 
正 ， 参 数 " 也 限制 取 正 值 。6 的 取 值 范围 为 0` 到 360"， 尽 管 在 图 像 坐 标 系 中 0 不 会 处 于 180" 到 
270"` 之 间 。r 的 取 值 范围 将 依赖 于 原来 的 x 和 ? 值 的 取 值 范围 。 x 

参数 空间 被 分 成 许多 小 的 矩形 区 域 。 每 个 区 域 有 一 个 累加 /A 
器 。 区 域 数 的 多 少 取决 于 所 期 望 的 离散 化 精度 。 如 果 r 被 分 成 5 的 
增 量 和 6 被 分 成 10" 增 量 ， 则 每 一 区 域 为 10" x $S， 且 有 一 个 累加 
器 ， 称 为 accfr][6], 如 图 12-22 所 示 。 被 一 个 像素 映射 到 的 那些 区 
域 的 累加 器 将 加 1。 这 一 过 程 必 须 对 图 像 中 的 所 有 像素 进行 。 计 
算 效 果 将 取决 于 区 域 数 。 如 果 所 有 68 值 均 试验 的 话 ( 即 增 量 2 值 
取 它 的 所 有 可 取 值 ), 计算 量 将 由 8 取 离 散 值 数 目 即 上 间隔 所 确定 。 y 
对 于 n 个 像素 ， 其 复杂 性 为 O (km)。 对 于 固定 的 E， 虽 然 本 质 上 这 图 12-21 图 像 坐标 系 的 
是 一 个 线性 复杂 性 ， 但 仍 值得 减 小 其 复杂 性 。 通常 表示 

采用 某 种 准则 以 限制 各 个 像素 线 的 取 值 范围 ， 就 可 使 计算 量 显著 减 小 。 可 以 根据 线 的 梯 
度 来 选择 9 的 单一 值 。 而 梯度 角 可 用 诸如 Sobel 算 子 (12.5.2 节 ) 那样 的 梯度 算 子 来 找到 。 一 旦 
得 到 此 值 ， 就 只 需 增 量 所 找到 的 那个 累加 器 。 由 于 此 时 对 每 个 像素 只 需 一 个 计算 步 ， 因 而 对 


07> 
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于 n 个 像素 ， 其 复杂 性 就 变 成 O (n)。 
累加 器 


15 
10 
5 
0 
0°10°20°30° 
0 


图 12-22 霍 夫 变换 使 用 的 累加 器 acc[x][91 


通常 我 们 希望 知道 线 的 端点 ， 通 过 记录 实际 映射 到 该 线 上 像素 就 可 找到 端点 。 细 察 该 表 
就 可 找到 该 线 上 最 远 的 那些 像素 。 


2. 顺序 代码 . 
顺序 代码 可 为 如 下 形式 : 
for (x = 0; x < xmax; X++) /* for each pixel */ 
for (y = 0; y < ymax; y++) { 
sobel (x, y, dx, dy}; /* find x and y gradients */ 
mgnitude = grad mag {dx, dy}; /* find magnitude if needed */ 
zf (magnitude > threshold) { 
theta = grad dir{(dx, dy); /* atan2() fn */ 


theta = theta quantize(theta); 

r= x * cos(theta) + yY * sin(theta); 

r =r quantize(r); 

acc[r] [thetal++; /* increment accumulator */ 


append (r, theta, x, y); /* append Point to line */ 
) } 

在 上 述 代 码 的 最 后 ， 当 所 有 像素 均 被 考虑 后 ， 在 每 个 累加 器 中 保留 的 值 便 是 表示 能 映射 
到 相应 线 上 的 像素 的 数目 。 具 有 最 多 像素 的 那些 线 是 最 可 能 的 那些 线 ， 因 此 要 选择 的 是 具有 
最 大 局 部 值 的 累加 器 。 为 此 必须 设计 选择 局 部 最 大 值 的 算法 。 

3. 并 行 代码 

显然 ， 前 面 的 顺序 代码 具有 很 大 并 行 化 的 潜力 。 因 为 每 个 累加 器 的 计算 是 与 其 他 累加 操 
作 相互 独立 的 ， 因 此 它们 可 以 同时 进行 计算 ， 尽 管 每 个 计算 需要 对 整个 图 像 进行 读 访问 。 采 
用 共享 存储 器 的 实现 将 不 需要 临界 区 ， 因 为 访问 全 为 读 访 问 ， 但 由 于 对 单元 进行 同时 的 读 请 
求 ， 因 此 会 有 一 定 的 延迟 和 竞争 。 


12.7 向 频 域 的 变换 


一 个 周期 (时间) 函数 x (0D 可 分 解 成 一 系列 有 具有 不 同 频率 和 幅度 的 正弦 波 。 由 于 这 种 分 解 
是 由 传 里 叶 在 19 世 纪 早期 提出 的 ， 因 而 被 称 为 传 里 叶 级 数 。 传 里 叶 变 换 为 原 函 数 z (0 产生 一 个 
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连续 的 频率 函数 X( 有)。 伟 里 叶 变 换 在 科学 和 工程 中 有 许多 应 用 ， 包 括 数字 信号 处 理 和 图 像 处 
理 。 这 里 感 兴 趣 的 主要 是 图 像 处 理 ， 然 而 下 面 所 述 的 方法 将 适用 于 所 有 健 里 叶 变 换 的 应 用 领 
域 。 在 图 像 处 理 领域 内 ， 伟 里 叶 变 换 (其 中 特别 是 实现 传 里 叶 变换 的 快速 算法 ， 即 快速 传 里 
叶 变 换 ) 主要 是 用 作 图 像 的 增强 、 恢 复 和 压缩 。 

图 像 是 一 个 二 维 离散 函数 (x, y)， 但 让 我 们 先 来 看 看 一 维 的 连续 实例 ， 如 稍 后 将 要 讲 到 
的 ， 二 维 实例 可 通过 将 一 维 实例 应 用 到 两 个 维 上 便 可 解决 。 为 完整 起 见 ， 让 我 们 从 最 基本 原 
理 出 发 ,来 回顾 一 下 傅 里 叶 级 数 和 传 里 叶 变换 的 概念 。 有 关 方程 的 推导 ， 包 括 数学 的 严格 性 ， 
可 在 [Elliott and Rao，1982] 以 及 许多 其 他 有 关 健 里 叶 级 数 和 变换 的 教科 书 中 找到 。 


12.7.1 储 里 叶 级 数 
傅 里 叶 级 数 是 一 串 正 弦 和 余 弦 项 的 累加 和 和， 它 可 写 为 ; 
-加 (cosf2 bsinf2m 
X(t)= 2 + (aeos( 7 + bsin\ 7 )) 


式 中 7 为 周期 (LT = /为 频率 )。 仿 里 叶 系 数 aj 和 bj; 可 由 定 积分 求 得 。 经 过 相应 的 数学 处 理 后 ， 
可 得 到 此 级 数 更 方便 的 表达 式 : 


J=l 


x(D)= Xe 
其 中 ， 忆 是 复数 形式 的 第 /个 傅 里 叶 系数 ， 而 ;= V-1 。 复 数 形式 的 傅 里 叶 系 数 也 可 由 定 积分 
求 得 。 


12.7.2 储 里 叶 变 换 


1. 连续 函数 
稍 作 数 学 上 的 处 理 ， 前 面 的 求 和 表达 式 可 演变 成 下 面 的 积分 : 
x(0)= [XP ed 
其 中 ，X(f ) 是 频率 的 连续 函数 。 函 数 X(f) 可 由 下 式 得 到 : 
X(f)= f xDe a 


式 中 X(f) 是 x(1) 的 频谱 ， 或 更 简单 地 是 x (0 的 伟 里 叶 变 换 。 代 之 以 傅 里 叶 级 数 中 的 离散 频率 ， 
现在 我 们 得 到 的 是 一 个 连续 的 频率 域 ， 其 至 具有 无 限 周 期 的 频率 (以 及 负 频 率 ! )。 有 关 细 节 
请 参见 [Elliott and Rao，1982]。 

使 用 给 定 的 一 次 积分 可 由 X(P 推 得 原 国 数 x(D， 这 种 积分 被 称 为 反 向 传 里 叶 变 换 ， 它 在 形 
式 上 类 似 于 傅 里 叶 变换 。 因 此 ， 能 实现 傅 里 叶 变 换 的 任何 算法 也 适用 于 反 向 傅 里 叶 变换 。 

2. 离散 函数 

要 用 数字 计算 机 来 实现 传 里 叶 变换 ， 必 须 对 输入 函数 zx(D 加 以 采样 ， 并 将 它们 以 一 组 离散 
值 存储 起 来 ， 例 如 对 于 N 次 采样 有 离散 值 组 x0，x1，x，, ，…，xw-1。 可 将 前 述 的 健 里 叶 变 换 用 求 
和 方式 替代 积分 方式 ， 就 可 演变 成 有 XN 个 离散 值 的 集合 ， 从 而 变 成 离散 传 里 叶 变 换 (Discrete 
Fourier Transform ，DEFT) ， 由 下 式 给 定 : 





ww 
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相应 的 反 向 离散 傅 里 叶 变 换 为 : 


其 中 0 < k<N-1。 AN 个 (实数 ) 输入 值 xo， XI1，X2，“…， XN-1, 将 产生 N 个 (复数 ) 变换 值 Xo， 
Xi1, X22，…, XN-1。 

(1) 比例 因子 ”NN 是 一 个 比例 因子 。 因 为 在 大 多 数 应 用 中 ， 一 个 函数 将 被 转换 、 处 理 并 返 
回 到 它 的 原来 形式 。 在 进行 变换 或 反 向 变换 时 ， 可 求 得 比例 因子 (或 在 每 个 变换 中 使 用 VN )。 
有 时 ， 离 散 传 里 时 变换 以 不 带 比例 因子 的 显 式 方式 表示 ， 即 : 


Nl orn) 


x, -Sx \w) 
人 


除了 12.7.5 节 中 的 快速 传 里 叶 变换 外 ， 我 们 将 省 略 该 比例 因子 。 

(2) 正 、 负 系数 ”如 像 [Cochran et al., 1967] 所 指出 的 那样 ， 除 了 改变 比例 因子 的 使 用 之 
外 ， 某 些 论著 作者 在 变换 时 使 用 正 系 数 ， 而 在 反 变换 时 使 用 负 系 数 ， 而 不 像 这 里 在 变换 时 使 
用 负 系 数 ， 而 在 反 向 变换 时 使 用 正 系数 (注意 : eie =- cosg+ising 以 及 ea -cosg_ising。) 

(3) 时 间 复 杂 性 求 和 计算 比较 容易 ， 特 别 是 如 果 指 数 项 的 值 存放 在 查找 表 中 时 ， 但 对 N 
点 而 言 (如 方程 式 所 列 出 的 那样 ) 仍 需 N? 次 乘法 和 加 法 ， 即 其 顺序 复杂 性 为 ON”)。 这 种 顺序 
复杂 性 一 般 被 认为 是 难于 接受 的 ， 特 别 是 N 取 较 大 值 时 。 幸 运 的 是 ， 已 开发 了 称 为 快速 传 里 叶 
变换 算法 ， 它 将 复杂 性 降 为 O(NlogN)。12.7.5 节 中 将 叙述 这 一 算法 ,但 在 此 之 前 ， 让 我 们 先 
来 看 一 下 离散 健 里 叶 变 换 的 图 像 处 理应 用 。 


12.7.3 图 像 处 理 中 的 傅 里 叶 变 换 
在 图 像 处 理 中 ， 输 入 将 是 形成 离散 二 维 函 数 的 一 组 像素 。 在 本 节 中 ， 我 们 将 使 用 /和 /坐标 


《而 不 是 早先 使 用 的 x 和 ?坐标 )。 在 U， 朋 坐标 中 的 像素 是 zx 0 ， 月 。 
二 维 的 傅 里 叶 变 换 为 : 


其 中 j 和 和 k 是 行 和 列 的 坐标 ， 且 0 <j<N-1 和 0 <k< M-1。 为 方便 起 见 ， 让 我 们 假定 该 图 像 是 一 
个 方 阵 ， 即 N = M。 这 样 此 方程 可 重 写 为 : 

Xm = > Ze 上 
式 中 的 内 部 累加 和 是 作用 于 一 行 中 N 个 点 上 的 一 维 DFT 操作 ， 它 将 生成 一 个 已 变换 的 行 ， 而 外 
部 累加 和 是 作用 于 一 列 中 N 个 点 上 的 一 维 DFT 操 作 。 我 们 可 写 : 


N-l 


yd 
X= >» Xe 
£ 





”因此 ， 二 维 的 DFT 能 被 分 为 两 个 顺序 阶段 ， 一 个 阶段 作用 于 行 元 素 而 另 一 阶段 作用 于 (已 变 
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换 ) 列 元 素 ， 如 图 12-23 中 所 示 。 因 此 需要 实现 的 仅 是 一 维 DFT 算 法 。 很 显然 ， 此 过 程 也 可 从 
列 开始 ， 然 后 再 是 行 。 具 体 选 择 则 依赖 于 为 实现 有 效 并 行 实现 原始 数据 是 如 何 存 放 的 [Fox et 
al.，1988]。 由 于 行 变换 相互 独立 ， 且 列 变 换 也 相互 独立 ， 因 而 存在 有 很 多 的 并 行 化 机 会 。 

天 行 变换 列 变换 


尼 


Km Kim 
图 12-23 二 维 DFT 


图 12-23 中 示 出 了 二 维 DFT 的 一 种 实现 ， 先 进行 一 维 DFT 操 作 ， 然 后 进行 转 置 操作 ， 接 着 
再 作 一 次 相同 的 DFT 操作 。( 在 4.2.1 节 中 ， 首 次 介绍 了 转 置 操作 ， 它 可 用 全 部 到 全 部 (all-to- 
all) 例 程 加 以 实现 )。 

应 用 

在 频率 域内 ， 图 像 处 理 和 分 析 有 非常 广泛 的 应 用 。DFT 的 一 个 应 用 领域 是 频率 滤波 ,在 
平滑 和 边缘 检测 中 都 要 用 到 它 低 通 和 高 通 滤 波 器 )。 频 率 滤波 早先 采用 加 权 掩 码 ， 它 可 用 孝 
积 操 作 描 述 : 


Xik 


Rj,k) = gj,k)* FO,k) 

(与 对 称 掩 码 的 互相 关 操 作 相 同 ; [Haralick and Shapiro，1992]， 式 中 g GY， 有 描述 了 加 权 掩 码 
(滤波 器 )， 而 f C， 及 描述 了 图 像 。 可 以 证 明 函 数 积 的 傅 里 叶 变 换 可 由 各 国 数 变换 的 卷 积 确定 
( 故 称 频率 卷 积 理 论 ; [Brigham，1988] )。 因 此 ， 两 个 国 数 的 卷 积 可 将 每 个 国 数 先进 行 傅 里 时 
变换 ， 然 后 将 两 个 变换 相 乘 得 到 

HCOU,K) = GOK) x FOR) 
(元 素 与 元 素 相 乘 )， 式 中 FG， 有 是 f UG, 月 的 傅 里 时 变换 ， 而 G 0， 月 是 80， 及 的 傅 里 叶 变换 。 
此 后 对 其 取 反 变换 ， 就 可 使 结果 回 到 原来 的 空间 域 。 这 种 滤波 方法 比 起 在 空间 域 中 使 用 简单 
的 加 权 掩 码 方法 需要 更 多 的 计算 量 , 但 它 可 完成 其 他 更 复杂 的 操作 。 也 可 对 两 个 完整 图 像 进 
行 卷 积 以 产生 一 个 新 的 图 像 ， 如 图 12-24 所 示 。 应 注意 的 是 ， 由 于 两 者 的 变换 是 相互 独立 的 ， 
因此 它们 可 并 行 地 完成 。 


图 像 





滤波 器 /图 像 
a) 直接 卷 积 b) 使 用 傅 里 叶 变换 
图 12-24 使 用 傅 里 叶 变换 的 卷 积 
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12.7.4 离散 傅 里 叶 变 换算 法 的 并 行 化 


在 叙述 更 聪明 、 更 快 的 全 里 叶 变 换 的 算法 之 前 ， 让 我 们 首先 研究 基本 的 DFT 算 法 以 及 它 
的 并 行 化 方法 。 我 们 从 以 下 公式 开始 : 、 


在 使 用 记号 w=e™™* 后 ， 可 得 : 


X, = DE 
式 中 mw 项 被 称 为 旋 动 系数 (twiddle factor)。 每 个 输入 值 必须 乘 以 旋 动 系数 。 用 w-! 替代 w 就 可 
得 到 反 变 换 。 


1. 顺序 代码 

产生 全 部 N 点 的 DFT 的 顺序 代码 形式 可 为 : 

for {(k= 0; k < N; k++) { /* for every point */ 
X[k] = 0; 
for (] = 0; j < N; j++) /* compute Summation */ 


X[k] = X[kK] + wi * K * x[j]; 
} 
其 中 X[k] 为 第 k 个 被 变换 点 ，x[k*] 为 第 个 输入 ， 共 有 NN 个 输入 点 ， 而 w = ew/* 。 求 累加 和 
的 计算 步 要 进行 复数 运算 。 由 于 每 步 求 累加 和 要 使 用 前 一 步 的 w 的 升 寡 值 并 乘 以 wx ( 即 w4- 
"xxwx =wi'*)， 故 上 述 代码 可 重 写成 : 
for (k = 0; k < N; k++) { 
X[k] = 0; 
a= 1; 
for (j = 0; j < N; j++) { 
X[Kk] = X[k] + a * x[j]; 


a=a*w; 
} 
} 
其 中 a 是 临时 变量 。 
2. 并 行 代 码 ”可 采用 几 种 方法 使 上 述 代码 并 行 化 。 这 里 我 们 将 只 简单 涉及 最 明显 的 主 从 
方法 、 较 明显 的 流水 方法 以 及 在 最 后 叙述 的 矩阵 -向 量 乘 主 进程 


积 方 法 。 

(1) 基本 的 主 - 从 实现 ”在 主 - 从 方法 中 ，N 个 从 进程 
中 的 每 一 个 可 被 指定 来 产生 一 个 变换 值 ， 即 第 个 从 进程 
生成 X[k]。 所 需 的 a 值 可 由 主 进程 预先 求 得 ， 如 图 12-25 
所 示 , 尽管 我 们 也 可 使 每 个 从 进程 同时 计算 它们 各 自 的 值 。 
该 方法 要 求 每 个 从 进程 拥有 一 份 所 有 输入 点 的 拷贝 ， 从 而 
会 使 存储 需求 增加 到 N 倍 。( 每 次 向 主 进程 请 求 所 需 元 素 ， xm xD] 
但 这 将 显著 增加 消息 传递 。) N (从 进程 ) 个 进程 并 行 求解 ”图 12-25 直接 实现 DFT 的 主 从 方法 
的 时 间 复 杂 性 为 OOW) ， 相 对 于 顺序 算法 实现 的 O(V2) 该 并 行 方法 有 了 很 大 的 优化 。 不 幸 的 是 ， 





X[n -1] 
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数据 点 数 很 可 能 远大 于 可 用 的 进程 数 。 此 时 ， 每 个 从 进程 将 需要 进行 多 次 累加 和 。 

(2) 流水 线 实现 ”该 算法 可 采用 流水 线 结 构 加 以 实现 ， 因 为 内 层 循环 中 的 每 次 迭代 需要 
使 用 前 一 次 选 代 生 成 的 值 。 将 XI[h] 的 内 层 循 环 展开 可 得 : 

X[k] = 0; 

a= 1; 

X[k] = X[k] + a * x[0]; 

a=a*w; 

X[k] = X[k] + a * x[1]; 

a=a*w; 

X[k] = XIkl + a * xf2]; 

a=a*w; 

X[k] = X[k] + a * x[3]; 

a 下 次 迭代 的 值 
X[K] 






其 中 的 每 一 对 语句 . - 


X[k] = X[k] + a * x[0]; a 
a=a* ws; ww ok 
可 由 一 个 独立 的 流水 级 完成 ， 如 图 12-26 所 示 。 流 
水 线 及 它 的 时 序 则 如 图 12-27 所 示 。 图 12-26 DFT 算 共 流 水 线 实现 的 一 个 流水 线 级 
x[0] x[1] x[2] x[3] x[N— 1] 





输出 序列 
TO X{1], XI2], XL3] … 


a) 流水 线 结构 


X{O] X[1] X{2] X[3] XL4} XS] XIé6) 





时 间 
b) 时 序 图 
图 12-27 用 流水 线 进行 离散 传 里 叶 变 换 


除了 我 们 的 方法 处 ，[Thompson，1983] 还 叙述 了 其 他 的 几 种 流水 线 计算 的 方法 。 
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(3) 由 给 阵 -向 量 积 实现 DFT 离散 全 里 叶 变 换 的 第 个 元 素 可 由 下 式 给 定 : 


1 N-l 
KX, = XW + XW + XW + XW + XW 


而 整个 变换 可 由 矩阵 -向 量 乘积 表示 : 


Xo 1 1 1 1 1 x 
和 “1 w w’ WwW? WA x 
X， 1 w’ w' We wD 训 
3 11 人 oa | x 
: | N : : : : 
XXX ] wt wt Wk wD x 
Xv 1 wh W2N-D WaN-D ..，WCN-DN-D x 


(注意 w? = 1)。 因 此 在 第 11 章 所 述 的 产生 矩阵 -向 量 积 的 那些 并 行 方法 可 用 来 进行 离散 傅 里 叶 
变换 ，w 项 的 某 些 可 以 归 约 掉 ， 这 将 在 习题 12-15 中 论 及 。 


”12.7.5 快速 傅 里 叶 变换 


快速 传 里 叶 变 换 (Fast Fourier Transform，FFT) 是 获取 离散 传 里 叶 变换 的 快速 算法 ， 它 
可 使 时 间 复 杂 性 从 O(N? ) 降 为 O(VlogN)。 通 常 将 发 明 FFT 归 功 于 [Cooley and Tukey，1965]， 虽 
然后 来 的 相关 信息 〈 在 文献 中 已 指出 ) 表明 事实 上 FFT 的 基本 思想 是 相当 古老 的 ， 它 可 一 直 追 
潮 到 20 世 纪 初 期 ([Cooley，Lewis and Welch，1967]; [Gonzalez and Woods，1992])。 在 下 
面 的 叙述 中 ， 将 假设 N 是 2 的 乘 方 。 

让 我 们 以 具有 比例 因子 的 离散 傅 里 叶 变换 方程 开始 进行 讨论 ， 以 表明 比例 因子 不 会 影响 


算法 的 推导 : 
X= Sm 
式 中 w = e-* 人 访 。 快 速 伍 里 叶 变 换 有 许多 公式 。 例 如 ，[Swarztrauber，1987] 就 叙述 了 8 种 公式 。 


一 般 而 言 ， 使 用 分 治 方法 将 求 和 不 断 地 分 解 。 下 面 我 们 描述 的 一 个 公式 是 将 求 和 分 解 成 以 下 
两 部 分 来 进行 的 : 








1 D> je! 0, 
X 三 -一 XW / + x w + 
t* NN £ 2j £ 2j+1 | 
其 中 第 一 项 求 和 处 理 具有 侦 下 标的 x 值 ， 而 第 二 项 求 和 处 理 具有 奇 下 标的 x 值 。 重 写 后 可 得 : 
1| 1 “7 ] Ma- | 
X= 二 | 一 一 » XW + Wo Di 
2|(N/2) £ (N/2) £ 
或 是 
x _1i_l "8 2 去) ot ] en 而 
“2 ON 向 /名 





现在 可 将 每 个 和 看 成 是 一 个 N/2 离 散 传 里 叶 变 换 分 别 作用 于 N/2 偶 数 点 和 N/2 奇 数 点 。 因 此 有 : 


X= 3 + w’ Xs | 
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其 中 k= 0，1，…,，N-1, XX 是 具有 偶 下 标 数 xo，x2，x，… 的 N12 点 的 DFT; 而 Xs 则 是 具有 
奇 下 标 数 x)， X3， X5， … 的 NMW2 点 的 DFT。 

现在 ， 若 假设 限制 为 0，，1，…，N/2 -1， 即 全 部 N 个 值 的 前 N/2 个 值 。 这 样 整个 序列 可 分 
成 为 两 部 分 : 
. 1 ， 

已 -了 lx +weXs | 
1 k+N 1 
Kw -了 [5 +w xa |- 3[Xr ws | 
因为 w+N2 = -ww*， 其 中 0<k<N/2。 这 样 我 们 可 用 两 个 N/2 点 变换 来 计算 Xi 和 Xi ;woe， 如 图 12- 
28 所 示 。 
输入 序列 变换 





图 12-28 将 N 个 点 的 DFT 分 解 成 两 个 W2 个 点 的 PDFT 


以 上 每 一 个 W2 点 的 DFT 又 可 分 解 成 两 个 W4 点 的 DFT， 此 分 解 可 一 直 进 行 下 去 直到 对 单 点 
进行 变换 。 一 个 单 点 的 DFT 即 是 该 点 的 值 。 对 每 个 要 变换 的 点 都 要 进行 上 述 的 计算 ， 图 12-29 示 
出 了 以 这 种 方法 对 四 点 进行 的 变换 。 图 12-29 中 未 
画 出 旋 动 系数 ， 但 应 注意 到 ， 根 据 X 人 和 XX# 中 所 使 
用 的 数 的 个 数 以 及 指定 的 X 变 换 输出 下 标 ， 在 不 同 
级 上 出 现 的 不 同 值 。 注 意 到 由 于 数 的 个 数 以 2 倍 系 
数 减 小 ， 相 应 地 wm 的 守 以 2 倍 系数 增加 ， 从 而 方便 
了 旋 动 系数 的 获得 。 (w = ei AN /2) ， ea HN /4) 二 w?， 
eari UN 18) = w4 等 )。 为 清晰 起 见 ，1/2 比 例 因 子 也 已 
被 省 略 ， 从 而 在 原来 的 DFT 方 程 中 车 没有 比例 因子 ， 则 它 就 不 会 存在 。 

图 12-30 中 示 出 了 一 个 16 点 DFT 的 分 解 。 应 注意 的 是 ， 初 始 化 时 ， 元 素 以 逆向 位 序 选 择 ， 
即 下 标的 二 进 制 表达 式 是 与 通常 的 数 序 相反 的 ;0 和 8 组 合 在 一 起 (0000 和 1000， 而 不 是 0000 
和 0001 ， 等 等 )。 图 12-31 中 给 出 了 16 点 FFT 的 结果 流 。 


Xi =£(0,2,4,6, 8, 10, 12, 14) + we (1,3,5,7,9, 11, 13, 15) 





12-29 四 个 点 离散 傅 里 叶 变换 


{Z(0,4.8,12) + wh Z02,6,10,14) } + wot {5(1,5,9,13) + wk £3,7,11,15)} 


{ [EO0, 8) + we 54, 12)] + we [ZE2, 10) + wh EA(6, 14)]} + { [21,9) + wh EA5,13)] + wh [253,11) + wk £07,15)]} 


Xo0 xX8 X4 X12 X22 Xi0 X6 X14 X1 9 x5 X13 X3 Xl X7 X15 
0000 1000 0100 1100 0010 1010 0110 1011 0001 1001 0101 1101 O011 1011 0111 1111 


图 12-30 16 个 点 DFI 的 分 解 
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NN 
/eu 
NN/ 
(SS 
“WW XK 
N27 0 
了 
NS 要 二 
ON 
“J NP RR CO 
“WV NA 
/~ 
图 12-31 16 个 点 FFT 的 计算 流 





1. 顺序 代码 


顺序 计算 的 时 间 复 杂 性 基本 上 是 O(NlogN)， 因 为 共有 logN 步 ， 而 每 一 步 需要 进行 正比 于 N 
的 计算 ,这 里 的 N 是 指 共有 NN 个 数 。 该 算法 可 用 递归 或 迭代 方法 加 以 实现 。 


2. FFT 算 法 的 并 行 化 


由 于 FFT 的 顺序 计算 的 时 间 复 杂 性 为 O(NlogN)， 因 而 当 使 用 N 个 处 理 器 时 ， 理 想 的 成 本 优 
化 并 行 计算 时 间 复杂 性 应 为 O(logN)。 下 面 我 们 叙述 两 个 并 行 化 的 方法 。 第 一 个 称 为 二 元 交换 
算法 ， 由 [Gupta and Kumar，1993] 提 出 ， 而 第 二 个 则 在 行列 操作 之 间 使 用 转 置 操作 。 

二 元 交换 算法 ”在 图 12-31 中 ,假定 为 每 个 数据 点 (对 第 j 个 进程 为 站， 相应 于 图 12-31 中 
的 一 行 ) 分 配 一 个 处 理 器 。 每 个 进程 最 终 将 生成 一 个 变换 点 。 图 12-31 中 的 连接 模式 称 为 媒 形 
连接 ， 如 果 每 一 行 分 配 一 个 处 理 器 ， 则 它 可 很 好 地 映射 到 超 立 方 体 上 ， 这 是 因为 本 级 产生 的 
结果 将 传送 给 下 一 级 的 进程 ， 而 该 进程 所 拥有 的 地 址 位 仅 与 本 级 的 地 址 有 一 位 不 相同 。 例 如 ， 
在 第 一 个 通信 步 中 ， 处 理 器 0 将 与 处 理 器 8 通信 ， 而 在 下 一 步 中 与 处 理 器 4 通信 ， 再 下 一 步 与 处 
理 器 2 通信 ， 最 后 一 步 与 处 理 器 0 通信 。 
同样 地 ， 如 果 处 理 器 数 小 于 数据 点 数 ， 从 而 每 个 处 理 器 将 分 配 有 一 组 数据 点 ， 但 此 时 的 
处 理 器 间 通 信 模 式 仍 具 有 相同 特征 。 假 定 有 p 个 处 理 器 和 N 个 数据 点 ， 则 每 个 处 理 器 有 N/p 行 。 
如 果 N 和 p 均 为 2 的 乘 方 ， 则 下 面 处 理 器 的 编号 取 数 据点 下 标 中 logp 最 高 位 。 余 下 的 位 则 用 来 标 
识 组 内 的 数据 点 。 图 12-32 中 示 出 了 N/p = 4 的 情况 。 

3. 分 析 - 

(1) 计算 给 定 p 个 处 理 器 和 N 个 数据 点 ， 每 个 处 理 器 在 每 一 步 将 计算 Np 个 点 ， 而 每 一 个 
点 的 计算 需 进 行 一 次 乘法 和 一 次 加 法 。 因 共 需 logN 步 ， 故 并 行 计算 的 时 间 复 杂 性 由 下 式 确定 : 


tcomp = O(N log N) 








人 0000 (2 人 
ODNNNYVICCococo 


Y 0111 加 WY 
1 000 AAAAAAA 





0 "INNRRRY 


1110 X14 


y 1111 Xs () ( 





m "N/A 人 7 之 2 
AAA 


NN 2 ON POOR 
NV PN 0 2 
WP oO 
"RA A 
DN N20 2 
INN O70 2 > 
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图 12-32 将 处 理 器 映射 到 16 个 点 FFT 计 算 


(2) 通信 


通信 时 间 复 杂 性 由 下 式 给 
leomm = O(log N) 


如 果 p<N， 处 理 器 间 通 信 仅 出 现在 前 logp 步 中 。 在 第 一 步 中 ， 所 有 p 个 处 理 器 进行 交换 。 
在 下 一 步 时 ， 仅 有 一 半 处 理 器 进行 数据 交换 ， 在 再 下 一 步 时 ， 仅 有 L/4 处 理 器 进行 交换 ， 以 此 


车 p = N， 则 每 一 步 都 需 通 信 ， 因 而 在 logN 步 中 的 每 一 步 在 处 理 器 对 之 间 要 进 
行 一 次 数据 交换 。 假 定 所 使 用 的 是 超 立 方 体 或 其 他 允许 进行 同时 交换 的 互联 网 络 ， 则 此 时 的 


类 推 。 如 果 互 联网 络 允许 同时 进行 交换 ， 则 通信 时 间 复 杂 性 可 简化 成 由 下 式 确 定 : 


tcomm = O(log p) 

当然 ， 如 果 互 联网 络 只 允许 进行 顺序 通信 ， 

(3) 转 置 算法 现 假定 N = p 并 且 每 个 处 理 器 从 一 个 数 
据点 开始 启动 。 为 说 明 方 便 ， 假定 有 16 个 数据 点 。 如 果 
处 理 器 以 二 维 阵列 排列 ， 例 如 以 行 主 序 ， 则 通信 将 先 出 
现在 每 列 的 处 理 器 中 ， 然 后 通信 将 出 现在 每 行 的 处 理 器 
中 。 假 定 如 图 12-33 所 示 的 那样 ， 为 每 一 列 分 配 一 个 处 理 
器 。 则 在 前 两 步 中 ， 所 有 通信 均 在 同一 个 处 理 器 内 进行 ; 
而 在 最 后 两 步 中 ， 通 信 将 在 处 理 器 间 进 行 。 在 转 置 算法 
中 ， 在 前 两 步 和 最 后 两 步 之 间 ， 数 组 元 素 被 转 置 ， 即 将 


则 上 述 的 这 


EE 
中 让 


每 一 列 中 元 素 移 到 对 应 的 行 中 , 如 图 12-34 所 示 。 在 转 置 ”图 12-33 用 转 置 算法 实现 FFT( 前 两 步 ) [399 


后 ， 进 行 最 后 两 步 操作 时 ， 现 在 将 只 涉及 到 处 理 器 内 的 通信 ， 如 图 12-35 所 示 。 处 理 器 间 要 进 
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行 的 唯一 通信 是 将 转 置 数组 。 


Po .Ph 户 Ps 


次 也 
elelele 


图 12-34 转 置 算法 中 对 数组 进行 转 置 图 12-35 用 转 置 算法 实现 FFT (最 后 两 步 ) 





12.8 小 结 


本 章 涉及 并 行程 序 设计 中 有 关 图 像 处 理 的 内 容 : 

“ 基本 的 低层 预 处 理 操作 〈 国 值 化 、 对 比 度 扩 展 、 直 方 图 、 平 滑 、 锐 化 以 及 噪声 消减 ) 
“ 用 掩 码 进行 边缘 检测 〈 著 名 的 有 Sobel 算 子 和 拉 普 拉 斯 算 子 ) 

* 霍 夫 变换 

* 离散 传 里 叶 变 换 和 快速 傅 里 叶 变 换 


推荐 读物 


有 几 本 有 关 图 像 处 理 的 教科 书 ， 其 中 包括 [Gonzalez and Woods，1992]、[Haralick and 
Shapiro，1992]、[Jain，1989]、[Sonka，Hlavac，and Boyle，1993]、[Castieman ，1996]， 以 
及 [Bissmann and Besslich，1995]。 而 有 关 多 处 理 机 实现 的 研究 性 教科 书 是 [Uhr et al.，1986]。 

许多 论文 对 低层 预 处理 作 了 描述 ， 如 [Davis ，1975$] 、[Sahoo,Soltani ，and Wong，1988]， 
以 及 [Weszka，1978]。 在 [Ercan and Fung，1996] 中 可 找到 有 关 的 硬件 实现 。 在 [Cole and Yap， 
1985] 以 及 [Sen ，1990] 中 可 找到 有 关中 值 的 算法 。 有 许多 其 他 的 图 像 处 理 操 作 在 本 章 中 未 被 论 
及 、 例 如 收缩 算法 可 将 一 个 对 象 的 范围 减 到 仅 是 一 个 像素 ， 从 而 使 对 象 计 算 变 得 十 分 容易 。 
[Rao，Prasada，and Sarma，1976] 氢 述 了 使 用 二 进 制 加 权 掩 码 的 并 行 收缩 算法 。[Arcelli and 


-Levialdi ，1972] 考 虑 了 三 维 收缩 。 


霍 夫 变换 已 用 各 种 方法 实现 。[Choudhary and Ponnusamy，1991] 中 讨论 了 共享 存储 器 的 
实现 。[Carlson，Evans，and Wilson，1994] 则 涉及 了 许多 有 趣 的 应 用 。 

[Cooley and Tukey，1965] 是 FFT 算 法 的 最 早出 处 。 以 后 又 陆续 出 现 了 许多 有 关 FFT 各 方面 
的 其 他 论文 ， 其 中 包括 [Gupta and Kumar，1993]、[Ilingworth and Kittler，1988]、[Norton 
and Silberger，1987]、[Swarztrauber ，1987] 以 及 [Thompson，1983]。 论 述 FFT 的 教科 书 有 
[Elliott and Rao，1982] 以 及 [Brigham，1988]。 


参考 文献 


ARCELLL C., AND S. LEVIALDI (1972), “Parallel Shrinking in Three Dimensions,” Comput. Graphics 
Image Process., Vol. 1, pp. 21-30. 





第 12 芝 图 像 处 理 


BASSMANN, H., AND P. W. BESSLICH (1995), Ad Oculos Digital Image Processing, International 
Thomson Publishing, London, England. 

BORN, G. (1995), The File Formats Handbook, International Thomson Computer Press, London, 
England. 

BRIGHAM, E. O. (1988), The Fast Fourier Transform and lts Application, Prentice Hall, Englewood 
Cliffs, NJ. 

CARLSON, B. D., E. D. EvANS, AND S. L.WILSON (1994), “Search Radar Detection and Track with 
Hough Transform Part 1 System Concept, Part I Detection Statistics, Part II Detection Perfor- 
mance with Binary Integration,” IEEE Trans. Aerospace and Electronic Syst., Vol. 30, No. 1, 
pp. 102-125. 

CASTLEMAN, K. R. (1996), Digital Image Processing, Prentice Hall, Upper Saddle River, NT 

CHOUDHARY, A. N., AND R. PONNUSAMY (1991), “Implementation and Evaluation of Hough 
Transform Algorithms on a Shared Memory Multiprocessor,” J. Par. Distribut. Comput., Vol 12, 
No. 2, pp. 178-188. 

COCHRAN, W. T., J. W. COLLEY, D. L. FAVIN, H. D. HELMS, R. A. KAENEL, W. W. LANG, G. C. MALING， 
D. E. NELSON. C. M. RADER, AND P. D. WELCH (1967), “What Is the Fast Fourier Transform,” 
IEEE Trans. Audio Electroacoustics, Vol. AU-15, No. 2, pp. 45—55. 

COLE, R., AND C. M. YAP (1985), “A Parallel Median Algorithm,” Inform. Process. Letters, Vol. 20, 
pp. 137-139. 

COOLEY J. W., P. A. W. LEWIS, AND P. D. WELCH (1967), “Historical Notes on the Fast Fourier 
Transform,” IEEE Trans. Audio Electroacoustics, Vol AU-15, No. 2, pp. 76-79. 

COOLEY, 了 W., AND J. W. TUKEY (1965), “An Algorithm for the Machine Calculation of Complex 
Fourier Series,” Math. Comput., Vol. 19, pp. 297--301. 

DAVIS, L. (1975), “A Survey of Edge Detection Techniques,” Computer Graphics and Image Process- 
ing, Vol. 4, pp. 248-270. 

DUDA, R., AND P. HART (1972), “Use of Hough Transformations to Detect Lines and Curves in Pic- 
tures,” Comm. ACM, Vol. 15, No. 1, pp. 11-15. 

ELLIOTT, D. F., AND K. R. RAO (1982), Fast Transforms, Algorithms, Analyses, Applications, 
Academic Press, New York. 

ERCAN, M. F., AND Y. F. FUNG (1996), “Low-Level Processing on a Linear Array Pyramid Architec- 
ture,” Computer Architecture Technical Committee Newsletter; June, 9-15, pp. 9—11. 

FOX, G., M. JOHNSON, G. LYZENGA, S. OTTO, J. SALMON, AND D. WALKER (1988), Solving Problems 
on Concurrent Processors, Volume 1, Prentice Hall, Englewood Cliffs, NJ. 

GONZALEZ, R. C., AND R. E. WOoDS (1992), Digital Image Processing, Addison-Wesley, Reading, 
MA. 

GUPTA, A., AND V. KUMAR (1993), “The Scalability of FFT on Parallel Computers,” IEEE Trans. Par. 
Distrib. Syst., Vol. 4, No. 8, pp. 922-932. 

HARALICK, R. M., AND L. G. SHAPIRO (1992), Computer and Robot Vision, Volume 1, Addison- 
Wesley, Reading, MA. 

HovuGH, P. V. C. (1962), A Method and Means for Recognizing Complex Patterns, U.S. Patent 
3,069,654. 

HUERTAS, A., W. COLE, AND R. NEVATIA (1990), “Detecting Runways in Complex Airport Scenes,” 
Comput. Vision, Graphics, Image Proc., Vol. 51, No. 2, pp. 107--145. | 

ILLINGWORTH, J., AND J. KITTLER (1988), “Survey of the Hough Transform,” Computer Vision, 
Graphics, and Image Processing, Vol 44, No. 1, pp. 87-116. 

JAIN, A. K. (1989), Fundamentals of Digital Image Processing, Prentice Hall, Englewood Cliffs, NJ. 

KRISHNASWAMY, D., AND P. BANERJEE (1997), “Exploiting Task and Data Parallelism in n Parallel 
Hough and Radon Transforms,” Proc. 1997 Int. Conf. Par. Proc., pp. 441-444. 

MANDEVILLE, J. R. (1985), “A Novel Method for Analysis of Printed Circuit Images,” IBM J. Res. 


301 





302 复 二 部 分 “并 法 和 应 用 


Dev, Vol. 29, Jan., pp 73-—86. 

NORTON, A., AND A. J. SILBERGER (1987), “Parallelization and Performance Analysis of the Cooley- 
Tukey FFT Algorithm for Shared Memory Architectures,” IEEE Trans. Comput., Vol. C-36, No. 5, 
pp. $581-591, | 

RAMIREZ, R. W. (1985), The FFT: Fundamentals and Concepts, Prentice Hall, Englewood Cliffs, NJ. 

RAO, C. V. K., B. PRASADA, AND K. R. SARMA (1976), “A Parallel Shrinking Algorithm for Binary 
Patterns,” Comput. Graphics Image Process., Vol. 5, pp. 265--270. 

SAHOO, P. K., S. SOLTANL and A. K. C. WONG (1988), “A Survey of Thresholding Techniques,” 
Computer Vision, Graphics and Image Processing, Vol. 41, pp. 233-260. 

SEN, S. (1990), “Finding an Approximate Median with High Probability in Constant Parallel Time,” 
Inform. Process. Letters, Vol. 34, pp. 77-80. 

SONKA, M., V. HLAVAC, AND R. BOYLE (1993), Image Processing, Analysis and Machine Vision, 
Chapman and Hall, London, England. 

SWARZTRAUBER, P. N. (1987), “Multiprocessor FFTs,” Parallel Computing, Vol. 5, pp. 197-210. 

THOMPSON, C. D. (1983), “Fourier Transforms in VLSI,” IEEE Trans. Comput., Vol. C-32, No. 11, 
pp. 1047-1057. 

UHR, L., Editor (1987), Parallel Computer Vision, Academic Press, Boston, MA. 

UHR, L., K. PRESTON JR., S.LEVIALDL AND M. J. B. DUFF (1986), Evaluation of Multicomputers for 
Image Processing, Academic Press, Boston, MA. 

WESZKA, ]. S$. (1978), “A Survey of Threshold Selection Techniques,” Computer Graphics and Image 
Processing, Vol. 7, pp. 259—265. 


习题 


科学 /数值 习题 


”12-1 


12-2 


对 于 给 定 的 p 个 处 理 器 和 z 个 图 像 像素 ， 求 按 12.4.1 节 所 描述 的 算法 计算 平均 值 所 需 的 并 


行 时 间 复 杂 性 ? 


值 ? 在 找 中 值 时 ， 什么 是 最 坏 情况 的 位 置 不 精确 
性 ? 7 


12-3 在 图 12-36 中 示 出 了 一 个 有 亮度 变化 的 图 像 。 一 个 3x 6 


3 掩 码 已 移 到 此 图 像 上 ， 用 Sobel 算 子 掩 码 扫 过 此 图 。 
像 , 根据 所 得 结果 求 得 不 同位 置 的 梯度 幅 值 和 梯度 


角 。 假 定 灰 区 的 值 为 0， 白 区 的 值 为 255 且 至 少 需 使 “ 
50% 以 上 的 像素 区 被 突显 出 来 以 便 识 别 。 3 
12-4 虽然 本 章 中 使 用 的 均 是 3 x 3 的 掩 码 ， 但 实际 上 也 可 ?2 pe 
用 其 他 大 小 的 掩 码 ， 如 5x5、7x7、 9x9、 11x1l 1 
以 及 13 x 13 的 掩 码 。 请 编写 实现 加 权 掩 码 滤波 的 程 
序 来 处 理 任何 m x m 掩 码 ， 其 中 的 掩 码 大 小 (m 为 奇 1 2 3 4 5 


数 ) 和 它 的 内 容 将 作为 输入 量 输入 。 将 此 程序 应 用 图 12-36 习题 12-3 中 的 图 像 


到 一 个 图 像 上 ， 并 对 不 同 的 掩 码 进行 相应 的 实验 。 


确定 在 什么 情况 下 12.4.2 节 所 描述 的 中 值 算法 可 找到 中 值 以 及 在 什么 情况 下 找 不 到 中 


试 编写 一 并 行程 序 来 对 以 标准 未 压缩 结构 ， 如 PPM ( 可 移植 像素 图 ) 或 PGM (可 移 值 
灰 度 图 ) 文件 格式 ， 所 存放 的 图 像 文 件 进行 边缘 检测 。 为 便于 观看 ， 须 将 图 像 转换 成 
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如 gif 那样 的 格式 ; 这 种 转换 可 借助 系统 实用 程序 来 完成 。( 可 参见 系统 的 “man” 页 面 
以 及 [Born ，1995] ) 。 
12-6 以 P6 格 式 (全 色 ) 读 和 PPM 文件， 编写 一 并 行程 序 以 将 图 像 简 化 成 灰 度 ， 这 只 需 对 每 
个 像素 取 红 色 、 绿 色 、 蓝 色 值 的 平均 值 便 可 得 到 : 
乡 人 
亿 素 信 = 红色 什 + 绿 色 值 + 查 名 值 


12-7 ”编写 一 个 能 实现 拉 普 拉 斯 算 子 的 程序 。 用 以 下 的 阔 值 化 处 理 方法 进行 实验 来 进行 边缘 
检测 。 即 除了 使 用 左 、 右 、 上 、 下 邻接 点 外 ， 还 需 对 前 述 各 点 的 邻接 点 进行 实验 。 
12-8 假定 已 对 一 个 图 像 进 行 了 边缘 检测 ， 并 生成 了 一 个 二 元 图 像 (边缘 处 为 1!， 而 其 他 地 方 
为 0) 。 设 计 一 个 算法 并 编写 一 个 并 行程 序 ， 它 将 1 填 人 由 边缘 线 围 绕 的 对 象 中 。 进 行 这 
种 填 人 的 一 个 方法 是 ,从 设 在 对 象 中 的 一 个 种 子 点 开始 ,递归 地 向 其 邻接 像素 点 内 填 1， 
直至 到 达 边 缘 为 止 。 
12-9 对 使 用 通常 线 表 达 式 的 霍 夫 变换 编写 一 个 并 行程 序 ， 并 在 示例 图 像 上 评估 该 程序 。 
12-10 替代 简化 地 增 量 累加 器 的 另 一 种 形式 的 霍 夫 变换 ( 它 具 有 的 梯度 算 子 也 能 提供 梯度 幅 
度 Vf) 允许 将 梯度 加 到 累加 器 。 用 实验 对 此 方法 加 以 研究 ， 并 与 简单 地 增 量 累加 器 方 
法 做 比较 。 
12-11 阅读 由 [Krishnaswamy and Banerjee，1997] 合 写 的 论文 ， 该 论文 描述 了 如 何 使 用 以 斜 
率 - 截 距 形 式 表示 图 像 中 的 线 进 行 霍 夫 变换 ， 并 请 将 此 法 与 使 用 Duda and Hart， 
1972] 的 通常 表达 式 的 方法 做 详尽 比较 。 
12-12 确定 在 12.7.4 节 中 所 叙述 的 流水 线 离散 傅 里 叶 变 换 实现 所 需 的 计算 时 间 。 
12-13 阐明 1 点 离散 伟 里 叶 变 换 的 结果 即 是 该 点 的 值 。 
12-14 由 于 快速 傅 里 叶 变 换 是 一 个 分 治 算法 ， 它 可 被 视 为 一 棵 树 。 请 以 树 的 形式 设计 连接 。 
12-15 试 证 明 在 12.7.4 节 中 所 描述 的 离散 傅 里 叶 变换 的 矩阵 -向 量 公 式 ( 当 N= 4 时 ) 为 = 
XX 11 1 11rx, 
X| 1llw w wllx 
和 | 4l1w 1 wl|lx, 


X, 1w’ w’ w ||x, 
对 于 N = 4， 试 用 向 量 -矩阵 公式 和 FFT 公 式 分 别 编写 一 个 并 行程 序 ， 并 测量 它们 的 执 
行 速度 。 
现实 生活 习题 


12-16 假定 你 受 一 个 大 型 电影 制 片 三 委托 去 开发 一 个 非常 快速 的 “造型 ”软件 包 ， 它 能 将 一 
个 图 像 改变 成 另 一 个 图 像 。 你 的 构思 是 有 两 个 图 像 ， 一 个 是 原 图 像 ， 另 一 个 是 最 后 图 
像 ， 通 过 将 原 图 像 中 的 每 一 个 像素 ， 以 锁 步 的 SIMD 方 式 逐 步 改 变 成 越 来 越 接近 最 后 
图 像 。 这 种 方法 肯定 是 易于 并 行 的 虽然 它 不 可 能 最 终 获 得 一 个 非常 平滑 变化 的 形状 。 
用 此 法 进行 相应 实验 ， 并 用 男 演员 或 你 朋友 的 像 片 向 电影 制 片 三 演示 该 软件 包 。 

12-17 假定 NASA 已 委派 你 一 个 任务 ， 让 你 编写 一 个 真正 快速 的 图 像 识 别 程序 ， 快 到 金星 
CAT (商业 访问 运输 ) 足以 能 从 以 1000 公 里 /小 时 的 速度 越过 被 绘制 地 图 区 域 的 
VERMIN 卫星 (金星 雷达 图 像 和 网 络 卫 星 ) 所 拍摄 到 的 地 形 图 像 中 捕获 着 落地 
点 ,VERMIN 图 像 地 图 涉及 的 范围 为 5 公里 x 5 公里 并 且 水 平和 高 度 的 精度 均 为 0.5 米 。 
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12-18 


12-19 


务 二 记分 部 法 和 应 肝 


适当 的 着 落 场 所 是 一 个 范围 为 25 米 的 圆 形 区 域 且 区 域内 的 最 大 的 高 度 变 化 不 超过 1.5 
米 。( 为 使 CAT 平 稳 的 着 落 需 要 相当 大 和 相当 平 的 区 域 .) 创建 所 采样 的 非 完善 地 形 的 
图 像 地 图 。 一 旦 你 的 公司 证 明了 它 的 CAT 能 力 ，NASA 将 向 你 提供 详细 的 VERMIN 地 
图 。 有 关 背 最 信息， 请 阅读 由 [Huertas, Cole and Nevatia，1990] 的 检测 跑道 的 论文 。 
一 家 集成 电路 板 的 制造 厂 磁 到 的 一 个 严重 问题 是 , 在 它 的 电路 板 上 有 新 开 的 印刷 电路 
走 线 ， 制 造 厂 委派 你 作为 独立 程序 员 找 出 一 种 方法 ， 以 能 在 集成 电路 板 离开 生产 线 之 
前 ， 自 动 地 检查 板 的 图 像 并 识别 出 断 开 的 走 线 。 已 知 的 是 所 有 走 线 在 一 个 方向 上 是 直 
线 或 者 可 以 旋转 90` 到 另 一 方向 。 设 计 一 种 策略 以 能 识别 走 线 中 的 断 开 处 ， 并 编写 一 
个 使 用 实际 测试 图 像 的 并 行程 序 。 若 感 兴趣 的 话 ， 请 阅读 [Mandeville ，1985]。 
Tom 最 喜爱 的 话 动 是 将 1 000 块 拼 板 (它们 是 从 一 幅 完 整 的 景色 上 冲 切 下 来 的 单个 且 是 
独特 形状 的 纸板 块 )。 利 用 形状 和 着 色 作 为 提示 ，Tom 失 起 两 块 拼 板 试图 将 它们 拼 在 
一 起 ， 可 能 要 对 其 中 一 块 或 另 -一 块 进行 旋转 。 有 时 Tom 判 断 错误 使 这 两 块 拼 板 不 能 合 
适 地 拼 在 一 起 ; 此 时 他 不 得 不 将 两 块 板 放 回 板 上 并 再 次 试 拼 。 当 它们 能 被 拼 在 一 起 时 
Tom 将 它们 放 到 板 上 ， 此 后 就 将 它们 视 为 是 一 块 板 。 然 后 Tom 就 重复 这 一 过 程 。 由 于 
对 计算 机 科学 的 开发 的 广泛 兴趣 和 对 并 行程 序 设计 的 特别 爱好 ，Tom 在 一 张 小 桌 上 方 
装配 了 一 台 摄 影 机 ， 而 在 小 桌 上 则 铺 摆 着 他 正在 拼接 的 所 有 拼 板 。 该 摄影 机 连 到 他 的 
N 台 计算 机 中 的 一 台 (是 的 ， 他 有 N 台 家 用 计算 机 ， 从 一 台 老 的 2GHz 的 P4 到 一 台 时 钟 
为 12GHz， 数 据 通路 为 236 位 的 64-CPU 的 P9) 生成 一 幅 压缩 的 30 000 x 30 000 像 素 图 
像 。Tom 的 目标 是 使 N 台 计算 机 并 行 工 作 以 生成 一 张 用 最 少 步 数 装配 拼 板 的 指导 表 。 

(容易 ) 列 出 为 了 帮助 Tom 解 决 这 一 并 行 计 算 问题 所 需要 用 到 的 计算 机 科学 的 各 
个 方面 ; 解释 每 一 方面 所 起 的 作用 。 

( 较 难 ) 略 述 Tom 可 在 N 台 计算 机 求解 该 拼 板 难题 的 方法 。 确 定 他 需 采 取 的 步骤 ， 
但 不 需要 实际 实现 生成 拼 板 装配 指导 的 程序 。 

(更 难 ) 略 述 如 果 每 块 拼 板 形状 不 是 独特 的 时 候 需 要 做 什么 。 

(最 难 ) 在 不 论 什 么 样 的 可 用 的 并 行 系统 上 实现 一 个 拼 板 求解 程序 。 





第 13 章 搜索 和 优化 


本 章 将 讨论 有 关 搜 索 和 优化 方法 。 首 先 我 们 讨论 的 是 分 支 限界 方法 ， 它 的 并 行 实现 会 引 
出 在 前 几 章 中 已 介绍 过 的 一 些 技 术 。 然 后 我 们 将 详尽 地 论述 另 一 种 相当 不 同 的 方法 : 即使 用 
遗传 算法 。 我 们 将 讨论 遗传 算法 和 它 的 各 种 并 行 化 方法 的 基本 技术 。 最 后 我 们 将 转向 叙述 翁 
山 技术 ， 这 种 技术 常 被 应 用 于 金融 的 优化 问题 。 如 同 第 12 章 一 样 ， 本 章 所 提供 的 信息 可 用 作 
并 行程 序 设计 的 课程 设计 。 


13.1 应 用 和 技术 


组 合 搜索 和 优化 技术 的 特征 是 从 对 问题 的 许多 可 能 求解 中 找到 一 个 解 。 对 于 许多 搜索 和 
优化 问题 ， 穷 尽 枚 举 搜索 是 不 可 行 的 ， 相 反 宜 采用 某 种 指导 性 搜索 。 此 外 ， 不 仅 是 着 眼 于 最 
优 (优化 ) 解 ， 通 常 也 寻找 一 个 好 的 非 优化 解 。 

用 组 合 搜索 和 优化 技术 要 解决 的 经 典 计算 机 科学 问题 包括 旅行 商 问题 、0/1 背 包 问题 
皇后 问题 ， 以 及 15 和 8 拼 块 问题 。 在 旅行 商 问题 中 ， 其 目标 是 一 个 售货员 从 一 个 城市 出 发 ， 访 
问 列表 中 每 一 个 城市 且 仅 访问 一 次 ， 最 后 再 返回 到 出 发 城市 ， 要 求 找 出 整个 旅行 的 距离 为 最 
短 的 一 条 路 线 。 在 Q/1 背 包 问 题 中 ， 各 个 对 象 被 赋予 不 同 的 得 益 值 ， 而 目标 是 将 所 选 对 象 装 满 
背包 以 获得 最 大 的 得 益 值 。 记 号 “0V1” 用 来 指明 对 象 是 被 选 ( 1) 或 是 不 被 选 (0)。n 皇 后 问 
题 的 目标 是 将 x 个 皇后 放 在 一 个 n x n 棋 盘 上 ， 使 所 有 n 个 皇后 不 会 互相 攻击 。 在 8 拼 块 问题 中 ， 
8 个 拼 块 的 号 码 分 别 为 从 1 到 8， 它 们 被 放置 在 一 个 3 x 3 的 板 上 ， 其 中 有 一 个 空 块 。 其 目标 是 ， 
每 次 向 空 块 中 移 和 一块， 最 后 要 使 所 有 块 以 行为 主 序 ( 即 在 顶 行 中 为 1、2、3 块 ， 第 2 行 中 为 4、 
5、6 块 ， 而 在 底 行 中 为 7、8 块 ) 在 底板 上 排列 。15 拼 块 问题 是 类 似 的 ， 不 同 的 仅 是 用 15 块 在 
一 个 4 x 4 底板 上 进行 排列 。 上 述 的 所 有 问题 所 表现 出 的 特征 是 ， 它 们 的 求解 需要 进行 大 量 的 
排列 ， 而 且 进行 完全 的 搜索 将 非常 耗 时 。 在 背包 问题 和 旅行 商 问 题 中 ， 还 未 曾 找到 在 多 项 式 
时 间 内 可 完成 的 算法 (在 最 坏 情 况 下 )， 因 而 这 类 问题 属于 NP 完全 问题 。 

搜索 和 优化 技术 在 商业 、 银 行 和 工业 中 也 有 许多 重要 上 应用。 例如， 金融 预报 、 航 班 和 乘 
务 员 的 编排 以 及 VLSI 芯片 的 布局 。VLSI 艺 片 布局 问题 在 概念 上 类 似 于 背包 问题 ， 其 目标 是 ， 
给 定 每 个 元 件 的 形状 ， 在 VLSI 芯 片上 布 放 这 些 元 件 使 所 占用 的 芯片 面积 最 小 。 该 问题 的 求解 
有 一 些 约束 条 件 ， 其 中 包括 芯片 形状 需 为 矩形 。 各 个 元 件 被 布 放 在 芯片 中 的 不 同位 置 时 ， 将 
会 导致 不 同 的 未 被 使 用 空间 。 在 实际 设计 中 往往 还 有 附加 的 约束 条 件 ， 如 芯片 的 方向 比 (长 / 
宽 比 ) 以 及 元 件 间 的 走 线 等 。 组 合 搜索 和 优化 技术 在 编译 器 的 寄存 器 优化 分 配 和 多 处 理 机 调 
度 中 也 有 广泛 的 应 用 。 

在 前 面 提 到 的 问题 中 ， 可 使 用 的 搜索 和 优化 技术 有 好 几 种 ， 其 中 包括 : 

。 分支 限 界 搜索 

“动态 规划 

“ 疏 山 

“ 模拟 退火 

“遗传 算法 
本 章 中 ， 我 们 将 首先 对 分 支 限 界 技术 加 以 概述 ， 因 为 它 是 基本 的 顺序 搜索 和 优化 技术 之 一 。 
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然后 我 们 将 稍为 详细 地 论述 遗传 算法 。 此 后 ， 我 们 将 讨论 息 山 搜索 的 一 个 例子 。 我 们 将 只 论 
及 上 述 各 方法 的 并 行 化 策略 。 有 关 其 他 方法 的 并 行 化 策略 ， 读 者 可 参阅 其 他 文献 。 在 [Quinn， 
1994] 中 可 找到 并 行 的 动态 规划 方法 ， 在 [Witte，Chamberlain and Franklin，1991] 中 可 看 到 有 
关 并 行 模拟 退火 方法 ， 而 在 HMichalewicz，1996] 中 则 对 遗传 算法 、 模 拟 退 火 以 及 假山 法 三 者 
做 了 比较 。 


13.2 分 支 限 界 搜索 
13.2.1 顺序 分 支 限 界 


分 支 限 界 的 搜索 行动 可 用 状态 空间 树 (state space tree) 来 描述 ， 树 的 根 表示 搜索 的 起 点 。 
从 根 结 点 到 下 一 层 表示 朝 问题 求解 方向 所 做 的 各 种 选择 ; 例如 ， 在 背包 问题 中 选 一 个 对 象 ， 
在 VLSI 布 局 中 选 一 个 元 件 及 对 它 的 布 放 。 一 旦 进行 了 这 一 选择 ， 接 着 就 要 进行 另 一 种 选择 ， 
并 使 搜索 过 程 移 向 树 的 下 一 层 。 就 实质 而 言 ， 该 问题 被 分 成 一 些 子 问题 ， 而 这 些 子 问题 本 身 
又 以 分 治 方式 被 进一步 求解 。 这 些 树 的 结 点 就 变 成 了 要 求解 的 子 问 题 。 

图 13-1 中 说 明了 一 个 通用 的 状态 空间 树 ， 它 可 在 许多 求解 问题 中 加 以 应 用 。 开 始 时 可 有 nn 
种 选择 ， 从 Co 到 C。-1!。 对 于 背包 问题 ， 每 个 选择 将 是 首选 的 对 象 。 对 于 旅行 商 问题 ， 每 个 选择 
使 是 对 下 一 个 要 去 的 城市 的 选择 。 对 于 "皇后 问题 ， 这 将 是 选择 第 一 个 皇后 被 摆 放 的 位 置 。 所 
述 的 树 构造 因为 与 求解 问题 相关 ， 故 称 为 动态 树 参见 [Horowitz and Sahni，1978]。 状 态 空间 
树 也 可 通过 在 每 一 结 点 进行 真 伪 选择 而 变 成 二 又 树 。 例 如 ， 在 背包 问题 中 ， 在 每 个 结 点 处 的 
选择 或 是 选 一 个 特定 对 象 或 是 不 选 。 这 种 形式 的 树 被 称 为 静态 树 。 


() 
第 一 次 选择 GO a Ci 
中 OE 0 
不 包括 不 包括 不 包括 
第 二 次 选择 人 -2 () OO CL () CO Cel () 


第 二 次 选择 \，----- /AN\-----/，、， \----- 


图 13-1 状态 空间 树 


状态 空间 树 的 搜索 可 用 深度 优先 (depth-first) 方法 即 从 左边 开始 ， 从 一 个 结 点 向 下 到 下 
一 层 的 一 个 结 点 ， 一 直到 最 深 的 那 层 ， 然 后 从 左 转 向 右 。 搜 索 树 的 搜索 也 可 用 广度 优先 
(breadth-first) 方法 ， 即 在 搜索 移 向 下 一 层 之 前 ， 在 本 层 中 从 左 到 右 先 加 以 搜索 。 通常， 对 所 
有 结 点 的 穷尽 搜索 的 代价 过 于 昂贵 ， 因 此 需要 采用 减少 搜索 的 策略 。 一 种 常用 的 策略 称 为 最 
住 优先 (best-first)， 它 将 引导 搜索 沿 着 最 可 能 获得 最 好 解 的 路 径 进 行 。 对 于 不 能 找到 比 现 有 
解 更 好 解 的 搜索 路 径 ， 将 不 会 向 前 搜索 。 为 防止 进入 这 种 不 被 看 好 的 搜索 路 径 ， 需 要 对 状态 
空间 树 进 行 修剪 。 
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在 减少 搜索 空间 方面 修剪 是 一 个 搜索 方法 的 关键 部 分 ， 但 这 要 求 正确 判断 在 往 下 的 状态 
空间 树 中 是 否 不 存在 一 个 更 好 的 解 。 为 此 ，、 必 须 设计 一 个 限界 函数 (bounding function) 或 
修剪 函数 〈cut-off function)。 当 搜索 到 达 每 一 结 点 时 ， 就 需 对 所 提供 的 下 限 (对 求 最 小 解 
问题 ) 或 上 限 (对 求 最 大 解 问 题 ) 进行 评估 ， 以 确定 是 否 要 进行 任何 更 进一步 的 搜索 。 在 
背包 问题 情况 下 ， 限 界 困 数 将 产生 最 大 的 可 能 得 益 值 ;而 对 VLSI 布局 问题 ， 它 将 产生 一 个 
需 最 小 芯片 面积 的 一 个 解 。 所 求 得 的 限界 函数 的 结果 ， 将 与 到 目前 为 止 所 获得 的 最 好 的 解 
进行 比较 。 

当 搜 索 到 达 某 一 结 点 但 尚未 对 它 的 所 有 孩子 结 点 进行 搜索 时 ， 称 该 结 点 为 活 结 点 (live 
node )。 在 一 个 活 结 点 中 ， 那 些 目 前 正 被 搜索 的 子 结 点 被 称 为 E 结 点 ( 正 被 展开 )。 当 所 有 子 结 
点 被 搜索 后 ， 该 父 结 点 便 成 了 死结 点 (dead node )。 在 分 支 限界 中 ， 一 个 E 结 点 的 所 有 子 结 点 
均 为 活 结 点 。 在 搜索 进行 过 程 中 ， 含 有 活 结 点 的 表 被 存放 在 一 个 队列 中 ， 在 搜索 算法 中 将 使 
用 此 队列 。 有 时 称 此 队列 为 开放 表 (open list) (车 必要 的 话 ， 那 些 死结 点 将 被 放 在 一 个 封闭 
表 中 ， 以 防止 重复 )。 对 于 最 佳 优 先 策略 ， 此 队列 将 是 一 个 优先 级 队列 ， 其 中 最 有 可 能 找到 最 
佳 解 的 活 结 点 将 被 放 在 队列 的 前 面 而 将 被 首先 选择 。 

在 回潮 中 (通常 不 同 于 分 支 限界 ) ， 当 一 个 搜索 不 应 再 向 下 进行 时 ， 搜 索 便 返回 至 上 一 层 
以 继续 在 该 层 进 行 搜索 ; 这 就 是 “ 回 郑 ”。 实 现 这 种 机 制 的 一 个 合适 的 数据 结构 是 堆栈 (后 进 
先 出 )， 用 它 来 保存 已 访问 过 的 那些 结 点 。 


13.2.2 并 行 分 支 限界 


状态 空间 树 非常 适合 于 并 行 化 。 例 如 用 若干 独立 处 理 器 可 对 状态 空间 树 的 不 同 部 分 进行 
独立 的 搜索 。 一 种 最 自然 的 方法 是 从 一 个 结 点 中 将 状态 空间 树 的 一 部 分 分 配 到 一 个 处 理 器 。 
然后 此 处 理 器 在 它 的 搜索 树 区 域 中 进行 搜索 。 如 果 一 个 深度 优先 搜索 被 分 解 成 多 个 独立 的 深 
度 优 先 搜索 时 ， 通 常 就 被 称 为 是 并 行 深度 优先 搜索 ， 虽 然 严格 地 讲 ， 当 每 个 处 理 器 以 一 个 活 
结 点 向 下 移 至 下 一 个 结 点 时 ， 并 行 化 在 整个 树 的 范围 内 所 创建 的 实际 上 是 一 个 广度 优先 的 波 
前 。 此 外 也 可 以 在 评估 限界 函数 和 在 对 下 一 个 E 结 点 进行 选择 时 实施 并 行 化 。 

不 幸 的 是 ， 存 在 一 些 问题 使 得 并 行 化 变 得 更 为 复杂 和 效率 低下 ， 而 并 非 像 原先 想像 的 那 
样 简单 和 高 效 。 分 支 限 界 搜索 要 求 将 限界 函数 求 得 的 下 限 (或 上 限 ) 通知 所 有 的 处 理 器 ， 使 
它们 在 任何 时 刻 能 优化 地 对 它们 所 搜索 的 部 分 树 进行 修剪 。 但 是 要 进行 修剪 的 那 一 层 由 于 可 
能 找到 了 更 好 的 解 ， 因 而 在 搜索 期 间 会 发 生变 化 。 

此 外 ， 在 任何 分 割 部 分 中 的 状态 空间 树 的 大 小 事先 并 不 知道 ， 这 就 使 负载 平衡 变 成 一 个 
严重 问题 ， 为 此 可 采用 第 7 章 中 叙述 的 负载 平衡 技术 。 开 放 表 队列 是 一 个 共享 数据 结构 ， 类 似 
于 7.4 节 中 的 最 短路 径 问题 的 顶点 队列 。 事 实 上 最 短路 径 问 题 可 视 作 为 搜索 和 优化 问题 ， 因 为 
其 目的 是 通过 图 寻找 最 优 路 径 。 通 常 最 短路 径 问 题 的 求解 常 与 其 他 的 图 算法 组 合 在 一 起 ， 如 
寻找 已 连接 的 元 件 。 图 搜索 和 本 章 所 叙述 的 状态 空间 搜索 技术 之 间 的 根本 差别 是 在 于 ， 在 图 
搜索 中 ， 图 在 开始 搜索 前 是 已 知 的 ， 而 状态 空间 树 的 结构 在 搜索 开始 前 是 未 知 的 。 

1. 并 发 的 队列 访问 

对 于 共享 存储 器 实现 ， 必 须 对 队列 加 以 保护 ， 以 防止 对 它 同 时 进行 访问 ， 为 此 我 们 可 采 
用 第 8 章 中 使 用 锁 的 共享 数据 技术 。 但 是 由 此 而 造成 的 顺序 化 将 严重 限制 可 能 达到 的 加 速 比 。 
如 [Rao and Kumar，1998] 所 指出 的 那样 ， 可 达到 的 最 大 加 速 比 为 : 
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式 中 toweue 为 访问 队列 的 平均 时 间 ，icomsp 为 平均 子 问题 ( 结 点 ) 的 计算 时 间 。 该 结果 实质 上 是 从 
阿 姆 达 尔 (Amdahl) 定律 推 得 的 (1.2.2 节 )。 

除了 对 整个 队列 加 锁 ， 可 只 对 队列 中 的 每 一 项 加 锁 。 当 一 个 处 理 器 访问 队列 中 的 第 1 项 时 ， 
它 就 被 上 锁 。 下 一 个 处 理 器 由 于 第 1 项 已 被 上 锁 ， 就 只 能 访问 队列 中 的 下 一 项 。 如 前 面 所 提 及 
的 ， 最 佳 优先 策略 使 用 优先 级 队列 。 在 每 次 插入 或 删除 操作 后 ， 形 成 一 张 有 序 表 就 可 实现 这 
种 优先 级 表 。 但 这 种 方法 的 时 间 复 杂 性 为 O(nlogn)。 优 先 级 队列 也 可 用 堆 (heap ) 数据 结构 加 
以 实现 ， 这 种 方法 有 更 高 效 的 插入 和 删除 。 堆 是 一 个 完全 的 二 叉 树 ， 其 特点 是 每 个 结 点 拥有 
的 值 至 少 会 与 其 子女 拥有 的 值 相 等 。 在 优先 级 队列 环境 下 ， 父 母 的 优先 级 高 于 其 子女 的 (或 
至 少 是 一 样 的 ， 如 果 有 多 个 结 点 具有 相同 优先 级 值 )。 因 此 根 结 点 拥有 最 高 优先 级 的 项 。 插 人 
一 个 新 项 的 算法 在 开始 时 是 先 将 该 项 插入 到 堆 的 底部 (从 左 到 右 ， 最 底层 中 的 第 一 个 自由 叶 
结 点 )。 此 后 在 进行 一 系列 的 比较 和 交换 后 ， 沿 树 向 上 移动 ， 直 至 到 达能 保持 堆 特 征 的 位 置 为 
止 。 对 最 高 优先 级 结 点 〈 根 结 点 ) 的 删除 意味 着 用 堆 的 最 后 一 项 来 替换 根 结 点 ， 然 后 将 其 向 
下 移动 直至 堆 的 特征 再 次 被 保持 为 止 。 这 种 插入 和 删除 算法 只 需 logn 步 ， 但 需要 访问 多 个 结 
点 。[Rao and Kumar，1988] 叙 述 了 一 种 算法 ， 它 只 对 称 为 窗口 (三 个 结 点 用 作 揪 入 ， 一 个 结 
点 用 作 删 除 ) 的 堆 的 一 部 分 加 锁 。 在 每 个 结 点 中 必须 存 有 附加 的 状态 信息 以 控制 对 堆 的 多 重 
访问 。 有 关 更 详尽 的 叙述 请 读者 参见 [Rao and Kumar，1988]。 

为 避免 集中 式 队 列 中 可 能 出 现 的 问题 ， 可 将 队列 在 处 理 器 中 分 布 式 地 存放 ， 并 间或 互相 
广播 较 好 的 结 点 。 这 些 策略 将 在 消息 传递 系统 中 使 用 。fJanakiram ，Agrawal，and Mehrotra， 
1988] 已 研究 了 (在 回溯 环境 下 ) 以 随机 方式 而 不 是 以 定 序 方式 来 选择 子 结 点 的 方法 ， 以 达到 
减少 处 理 器 间 通 信和 的 目的 。 

2. 加 速 比 异常 

当 用 深度 优先 方法 进行 顺序 搜索 时 ， 处 理 器 从 根 结 点 开始 搜索 ， 然 后 首先 遍历 最 左边 路 
径 ， 此 后 向 下 一 层 又 是 先 遍 历 最 左边 路 径 ， 如 此 继续 直到 找到 解答 。 当 p 个 处 理 器 独立 地 运行 
在 分 离 的 向 下 路 径 上 时 ， 很 可 能 其 中 有 一 个 处 理 器 很 快 找到 了 一 个 可 行 解 。 在 这 种 情况 下 ， 
并 行 加 速 比 会 大 于 p ( 超 线性 加 速 比 )。 这 就 是 所 谓 的 加 速 异 常 。 相 反 的 ， 一 个 可 行 解 可 能 处 
于 树 中 的 某 一 位 置 ， 该 位 置 在 搜索 时 间 为 1p 时 仍 未 到 达 访 点， 而 若 用 单 处 理 器 进行 搜索 ， 此 
时 已 经 到 达 。 在 这 种 情况 下 ， 加 速 比 就 会 小 于 p。 如 果 此 时 的 加 速 比 仍 大 于 1， 则 这 就 是 所 谓 
的 减速 异常 。 加 速 比 也 有 小 于 1 的 ， 此 时 的 这 种 异常 被 称 为 不 利 异 常 (detrimental anomaly )。 
[Lai, and Sahni，1984] 以 及 [Li, and Wah，1986] 对 为 何 会 出 现 这 些 异常 做 了 详尽 研究 。 类 似 的 
研究 结果 也 可 参见 [Wah，Li，and Yu，1985]。 


13.3 ”遗传 算法 
13.3.1 进化 算法 和 遗传 算法 


遗传 算法 的 理论 有 其 生物 学 根源 。 遗 传 算法 企图 模仿 个 体 种 群 的 自然 界 进化 过 程 。 尽 管 
到 目前 为 止 对 自然 界 进化 的 真正 机 制 还 未 能 很 好 了 解 ， 但 在 某 些 方面 的 研究 已 到 了 相当 深度 。 
长 久 以 来 ， 生 物 学 中 的 一 个 重要 研究 领域 是 对 染色 体 一 一 含有 生物 特征 的 信息 载体 的 研究 . 
虽然 对 有 关 这些 染 色 体 支配 生物 组 织 的 性 质 这 一 点 仍 存在 某 种 不 确定 性 ， 但 事实 上 很 少 有 人 
怀疑 它们 确 是 唯一 地 确定 了 生物 组 织 的 性 质 。 

进化 是 在 染色 体 层次 上 通过 再 生 的 过 程 ， 而 不 是 生物 个 体 本 身 的 再 生 过 程 。 当 一 个 种 群 
中 的 个 体 再 生 时 ， 每 个 双亲 的 部 分 遗传 信息 (部 分 的 双亲 妆 b 色 体 ) 被 组 合 在 一 起 以 生成 它们 





肿 13 赣 搜索 和 和 优化 309 


后 代 的 染色 体 。 通 过 这 种 方法 ， 后 代 获 得 遗传 构造 信息 ， 该 信息 是 它们 双亲 信息 的 混合 物 并 
且 显 示 出 双亲 特征 的 相应 混合 。 组 合 产 生 后 代 的 来 自 双亲 的 染色 体 是 主要 机 制 ， 借 助 这 种 机 
制 可 使 染色 体 模式 发 生 改变 。 从 每 对 双亲 处 继承 某 些 特征 在 术语 中 被 称 为 交叉 ( crossover)。 

另外 ， 在 一 个 特定 个 体 的 染色 体 模式 中 可 能 出 现 一 个 偶然 的 随机 变化 ， 这 种 影响 在 术语 
中 被 称 为 突变 (mutation)。 这 些 突变 可 能 导致 个 体 的 染色 体 模式 显著 地 不 同 于 任 一 双亲 。 与 
个 体 的 双亲 相 比 ， 一 个 突变 可 能 增强 个 体 的 生存 力 或 是 损伤 它 的 生存 力 。 突 变 最 重要 的 作用 
是 它 可 引起 个 体 生 活力 的 突然 改变 ， 而 这 与 双亲 无 直接 关系 。 由 于 衰减 一 个 个 体 的 生存 力 的 
方法 比 改善 其 生存 力 的 方法 要 多 的 多 ， 因 此 大 规模 出 现 的 突变 将 趋向 于 衰减 种 群 的 生活 力 。 
很 少 会 出 现 那 种 能 偶然 地 产生 有 益 改变 的 突变 ， 而 且 这 种 改变 还 不 会 胜 过 对 种 群 具 有 不 利 的 
改变 。 

如 同 对 一 个 生物 体 的 染色 体 的 所 有 变化 一 样 ， 还 存在 有 一 种 生物 体 与 环境 的 交互 变化 。 
相对 于 它 的 祖先 ， 有 时 这 些 变化 会 改善 已 变化 的 生物 体 的 生存 力 ， 从 而 导致 增加 其 生存 的 可 
能 性 ， 并 会 将 它 的 染色 体 信息 传递 给 它 的 后 代 。 很 自然 地 ， 也 存在 同样 的 可 能 性 ， 即 这 种 改 
变 会 降低 生物 体 的 生存 力 ， 从 而 减少 了 将 那些 信息 传递 给 其 后 代 的 机 会 。 一 般 认为 ， 虽 然 突 
变 的 发 生 频 度 较 低 ， 但 与 交叉 相 比 ， 它 在 自然 界 的 进化 中 起 着 更 重要 的 作用 。 

当 突 变 率 相对 较 低 时 ， 不 适应 的 个 体 在 向 它们 的 后 代 传 递 它们 的 特征 前 就 趋向 消失 ; 相 
反 地 ， 较 适应 的 个 体 一 般 会 成 功 地 将 它们 的 特征 传递 给 后 代 。 然 而 ， 当 突变 率 相 对 较 高 时 ， 
会 引入 大 量 的 个 体 数 ， 且 它们 的 特性 显现 出 与 上 一 代 的 特性 随机 地 不 相同 ， 从 而 在 本 质 上 导 
致 种 群 的 衰退 和 不 稳定 性 ， 而 在 遗传 算法 的 计算 机 实现 中 即 是 出 现 不 收敛 情况 。 

随 着 时 间 推 黎 ， 染 色 体 的 这 些 变 化 将 产生 一 些 变 种 ， 它 们 与 原先 的 生物 体 种 群 的 成 员 有 
很 大 差异 。 一 般 而 言 ， 以 某 种 方式 增强 物种 生存 力 的 那些 变化 随 着 时 间 推 移 会 趋向 处 于 支 
配 地 位 。 例 如 ， 在 鸟 种 群 中 ， 对 乌 集 中 的 鸟 蛋 担负 主要 照看 作用 的 是 肉 鸟 。 肉 鸟 的 羽毛 颜 
色 与 奴 乌 相 比 一 般 都 较 邓 和。 用 这 种 方法 ， 肉 乌 与 周围 环境 融合 在 一 起 ， 而 不 是 像 雄 鸟 那 
样 以 鲜艳 的 颜色 羽毛 引起 对 它们 的 注意 。 在 鸟 集中 长 时 间 栖 息 不 动 并 融入 周围 环境 的 那些 
鸟 的 个 体 的 寿命 ， 一 般 要 比 会 引起 食肉 动物 注意 的 那些 个 体 的 寿命 要 长 。 因 而 肉 乌 趋向 于 
将 它们 柔和 色 的 染色 体 传 递 给 更 多 的 后 代 。 最 终 ， 种 群 逐 渐 加 权 地 朝 那些 能 趋 于 增加 寿命 
的 特性 方面 改变 。 

上 述 理论 是 1859 年 由 查尔斯 * 达尔 文 在 他 的 经 典 进化 论著 作 中 提出 的 ， 即 自然 选择 理论 ， 
或 更 普遍 地 被 称 为 是 “ 适 者 生存 ”理论 。 恰 如 前 面 所 例 举 的 岛 的 例子 那样 ， 在 任何 的 一 个 物 
种 的 种 群 中 ,“ 较 强 ” 或 “更 适应 ”的 个 体会 有 更 多 的 生存 机 会 ， 因 而 会 向 它们 的 后 代 传递 会 
使 它们 易于 生存 的 那些 特征 。 当 然 也 肯定 存在 这 样 的 例子 ， 即 一 个 特别 适合 的 个 体 不 能 存活 
长 入， 从 而 无 法 繁衍 ! 这 种 例子 将 是 那 种 正好 是 在 “错误 时 间 和 错误 地 点 ”出 现 从 而 过 旱地 
成 为 另 一 种 物种 的 食物 源 的 个 体 。 但 正如 权威 人 士 所 指出 的 那样 ， 赛 跑 的 获胜 者 不 一 定 总 是 
跑 得 最 快 的 ， 格 斗 的 获胜 者 也 并 不 一 定 总 是 最 强壮 的 ， 但 平均 而 言 ， 我 们 可 断定 会 出 现 那样 
的 结局 。 

重复 地 使 用 交叉 和 突变 原理 ， 然 后 每 一 次 基于 被 繁殖 成 员 的 相对 适应 度 来 生成 “下 一 代 ”， 
就 被 称 为 是 遗传 算法 。 如 同 自然 界 一 样 ， 这 种 有 助 于 “ 解 群 ” (population of solution) 优化 的 
方法 ， 随 着 时 间 推 移 会 趋向 产生 好 的 解 。 在 后 面 几 节 中 将 更 详细 地 叙述 如 何 来 实现 这 种 遗传 
算法 。 

遗传 算法 是 那 种 按 生 物 进 化 过 程 模型 对 问题 进行 求解 的 计算 方法 。 该 算法 首先 要 创建 一 
个 初始 的 “ 解 群 ”( 个 体 )。 然 后 使 用 专门 的 适应 标准 对 这 些 个 体 进行 评估 ， 将 它们 按 从 “最 
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适应 ”到 “最 不 适应 ”的 不 同 程度 加 以 分 类 。 此 后 用 倾向 于 “ 较 适 应 ”个 体 的 准则 ， 从 中 选 
择 一 个 种 群 的 子 集 。 接 着 用 这 一 子 集 来 生成 新 的 后 代 。 最 后 ， 再 对 下 一 代 中 的 少量 个 体 施 以 
随机 突变 。 

上 述 选 择 、 交 叉 和 突变 的 过 程 不 断 重 复 ， 从 而 可 生成 许多 代 。 如 同 自 然 界 中 一 样 ， 基 本 
假设 是 ， 只 要 遵循 用 给 定 代 中 更 适应 的 个 体 去 生成 下 一 代 中 种 群 中 的 各 个 个 体 将 趋向 进化 和 
改善 其 适应 性 。 尽 管 遗 传 算法 不 能 保证 找到 最 优 解 ， 但 通常 它 能 很 快 地 找到 相当 好 的 解 。 


13.3.2 顺序 遗传 算法 
以 下 是 有 关上 顺序 遗传 算法 的 伪 代 码 概要 : 


generation num = 0; 
initialize Population (generation_num); 
evaluate Population (generation num); 
set termination_ condition to False; 
while (not termination condition) { 
generation nyumt++; 
select Parents (generation num) from Population{(generation num - 1); 
apply crossover to Parents (generation num) to get 
Offspring (generation_num); 
apply mtation to Offspring (generation num) to get 
Population (generation_num); 
evaluate Population (generation num) and update termination_condition; 


} 
在 前 面 的 讨论 中 ， 一 些 问题 在 某 种 程度 中 已 被 掩盖 起 来 。 其 中 包括 : 

* 如 何 用 染色 体 来 表示 一 个 个 体 或 一 个 可 能 解 

* 如何 生成 可 能 解 的 初始 种 群 

“ 如何 评 估 每 一 个 可 能 解 以 确定 其 适应 性 

* 如 何 确定 重复 终止 的 条 件 

* 如 何 选 择 变 为 下 一 代 “ 双 亲 ” 的 个 体 ， 以 及 这 些 下 一 代 个 体 如 何 确切 生成 
一 旦 搞 清楚 上 述 的 这 些 问题 后 ， 我 们 将 转向 讨论 有 关 并 行 化 顺序 方法 的 问题 。 


13.3.3 初始 种 群 


为 了 演示 遗传 算法 中 开始 的 几 步 ， 下 面 我 们 讨论 一 个 简单 的 求解 问题 ， 即 对 在 ~1 000 000 

到 + 1 000 000 的 整数 范围 内 每 一 个 变量 值 ， 确 定 下 列 函 数 表 达 式 的 最 大 值 : 
f(x,y,2)=~-x + 1 000 000x—y?—40 0007 一 2 

(为 简化 讨论 问题 起 见 ， 将 变量 x+，y 和 z 限 制 为 取 整 数值 。 ) 

对 该 问题 可 能 偶然 会 有 一 个 直接 解 ， 它 能 方便 地 用 来 验证 用 其 他 技术 求解 所 得 到 的 结果 
是 否 正 确 。 然 而 在 实际 中 ， 由 于 其 他 技术 的 求解 不 能 保证 得 到 一 个 最 优 解 ， 因 此 对 于 那些 不 
存在 简单 接近 解 的 问题 ， 只 能 采用 搜索 和 优化 技术 。 在 对 上 式 稍 作 简单 的 代数 变换 后 ， 可 将 f 
分 解 成 如 下 的 形式 ， 从 中 可 容易 地 看 出 它 的 最 大 值 : 

f (x, y, 2 )=2504 x 108 — (x-500 000)2?--(7 + 20 000)2—22 

在 这 种 形式 中 ， 可 明显 地 看 到 f (x, y , z) 的 最 大 值 为 250 400 000 000， 仅 当 x 为 500 000， 》 
为 -20 000 以 及 z 为 0 时 才 会 出 现 。 因 为 只 有 当 x、y、z 取 上 述 相应 坐标 值 时 ， 才 会 使 式 中 的 各 平 
方 项 取 值 为 0， 而 当 它 们 取 任 何其 他 坐标 值 时 ， 这 些 平 方 项 就 会 是 某 一 正 值 ， 而 要 从 2504 x 108 





朵 13 草 授 索 和 和 优化 311 





这 一 项 中 减 去 从 而 减 小 f。 现 在 让 我 们 假设 这 样 的 直接 解 不 存在 ， 以 方便 我 们 的 讨论 。( 如 所 
指出 的 那样 ， 我 们 用 此 函数 作为 我 们 的 测试 案例 ， 从 而 可 使 计算 机 的 求解 较 容易 地 与 上 述 确 
切 解 做 比较 ; 实际 上 可 用 任何 函数 )。 
由 于 问题 的 计算 规模 大 ， 采 用 对 每 一 个 可 能 坐标 值 进行 函数 计算 的 简捷 的 穷尽 搜索 方法 是 
不 现实 的 。 因 为 共 要 评估 (2 000 001)3 个 坐标 值 ， 并 且 即 使 假设 相应 于 每 次 国 数值 的 计算 只 需 
100ns (这 是 对 任何 合理 的 评估 函数 的 高 度 乐观 估计 )， 在 单 处 理 器 上 运行 将 需要 200 000 000 
多 个 小 时 。 即 使 我 们 对 此 算法 实施 并 行 化 使 计算 速度 提高 10 000 倍 ， 但 仍 需 要 两 年 多 的 时 间 
才能 计算 完毕 。 
1. 数据 表示 
确定 可 能 解 的 初始 化 种 群 的 第 一 步 是 为 一 个 个 体 选 择 一 个 合适 的 数据 表示 。 在 早期 的 遗 
传 算 法 研究 工作 中 ， 简 单 地 以 1 和 0 的 字符 串 来 表示 可 能 解 ; 较 近 期 的 研究 工作 已 将 这 种 表示 
进行 了 扩展 ， 包 括 浮 点 数 、 葛 菜 码 以 及 整数 字符 串 [Michalewicz，1996]。 为 简单 起 见 ， 我 们 
仍 使 用 二 进 制 字符 串 。 
第 ;个 可 能 解 将 由 一 个 三 元 组 (x%，y;，z;) 组 成 ， 三 元 组 中 的 每 一 个 在 间隔 范围 -1 000 000 
< 元素 值 (component_value)& +1 000 000 内 ， 将 取 2 000 001 个 可 能 整数 值 中 的 一 个 值 。 由 于 
220<2 000 001 «< 221 
因此 三 元 组 中 的 每 一 个 元 素 需 用 21 位 二 进 制 位 来 表示 。 这 样 一 个 可 能 解 ( 即 一 个 染色 体 或 一 
个 个 体 ) 就 由 63 位 组 成 ， 它 实际 上 是 (x;:，y:，zi) 表示 的 并 置 。 
假定 x = +262 40810,，y = +16 544io， 以 及 z = -1 032io， 则 使 用 “符号 加 值 ” 的 表示 方法 时 ， 
上 述 每 个 数 的 二 进 制 表示 式 为 : 
x = 001000000000100001000 
y= 000000100000010100000 
z = 100000000010000001000 
每 个 数 中 的 最 左 位 是 符号 位 (0 表示 正 值 ，1 表 示 负 值 )， 而 其 余 位 则 表示 值 的 大 小 。 应 注意 的 
是 ， 这 种 表示 将 保证 值 的 大 小 处 于 -1 048 575 和 +1 048 575 或 +22 的 范围 之 间 。 将 它们 并 置 成 
一 个 二 进 制 字符 串 后 ， 就 可 得 到 可 能 解 的 一 个 表示 : 
001000000000100001000000000100000010100000100000000010000001000 
现在 我 们 已 确定 一 个 可 能 解 的 长 度 为 63 位 ， 这 样 我 们 就 可 用 伪 随 机 数 生 成 器 方便 地 引入 
它们 的 一 个 初始 种 群 。 
2. 评估 
下 一 步 我 们 将 使 用 函数 中 的 x-、y 和 z 的 值 ， 对 这 一 个 体 的 适应 性 加 以 评估 ， 即 : 
f(x,y, 2)= -x + 1 000 000x—y—40 000y-2? 
f (262 408, 16 544, -1 032) = -(262 408)2 + 1 000 000 x 262 408-—(16 544) 
—40 000 x 16 544-—(—1 032)? 
=-68 857 958 464 + 262 408 000 000-273 703 936-661 760 000-1 065 024 
= 192 613 512 $76 
对 种 群 中 的 每 一 个 个 体 都 要 重复 进行 上 述 的 评估 过 程 。 即 对 应 于 每 一 个 个 体 要 进行 函数 值 
或 适应 性 的 计算 。 此 后 按 它们 可 使 函数 取 最 大 值 的 好 坏 程度 加 以 排序 。 对 那些 可 使 函数 的 值 大 
于 192 613 512 576 的 个 体 将 排序 为 “ 较 好 适应 ”， 而 将 那些 小 于 此 值 的 个 体 排序 为 “ 较 差 适应 ”。 
3. 约束 
很 自然 地 ， 由 于 我 们 变量 取 值 范围 被 限 在 *1 000 000， 那 么 ， 任 何 个 体 如 果 它 的 zx、y 或 z 
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的 值 落 在 此 范围 之 外 时 ， 就 被 认为 会 有 差 的 适应 性 ， 因 而 就 不 必 再 求 它 的 图 数 值 以 期 望 它 可 
能 成 为 双亲 。 在 自然 界 ， 这 就 相当 于 流产 的 人 个体。 同样， 还 有 其 他 方法 可 对 个 体 的 取 值 范围 
加 以 限制 。 使 个 体 落 在 *1 000 000 间 隔 范 围 外 的 缺陷 ， 可 采用 “外 科 手 术 修复 ”方法 加 以 补救 
(将 1 位 或 多 位 加 以 变化 以 改正 此 缺陷 )。 我 们 也 可 采用 另 一 种 方法 ， 即 在 对 适应 性 进行 评估 之 
前 ， 将 已 生成 的 个 体 映 射 到 所 限制 的 范围 内 ， 这 只 需 对 每 一 个 坐标 值 乘 上 一 个 比例 因子 就 可 
完成 : 
乘 比例 因子 后 的 坐标 =~1 000 000 + (坐标 /220 x (2 000 000) 

有 关 在 遗传 算法 中 所 使 用 的 对 个 体 求解 限制 方法 的 更 进一步 的 讨论 可 参见 [Michalewicz，1996]。 

4. 个 体 数 

最 后 的 有 关 问题 是 “在 初始 种 群 中 应 包含 多 少 个 个 体 ?”。 一 般 而 言 ， 当 个 体 数 少时 ， 将 
减少 在 较 合 理 的 繁殖 代数 内 获得 合适 解 的 可 能 性 ， 而 当 个 体 数 很 大 时 ， 将 会 增加 每 一 代 所 需 
的 计算 量 。 通 常 一 个 初始 种 群 由 20 到 1000 个 伪 随 机 可 能 解 组 成 。 就 本 例 而 言 ， 这 就 意味 着 有 
20 到 1000 个 伪 随 机 生成 的 二 进 制 字符 串 ， 每 一 个 的 长 度 为 63 位 。 


13.3.4 选择 过 程 


仿效 自然 界 ， 任 何 个 体 应 有 可 能 被 选 为 下 一 代 后 代 的 双亲 。 然 而 ， 如 同 在 自然 界 中 一 样 ， 
一 个 有 更 好 适应 性 个 体 比 适应 性 差 的 有 更 多 的 机 会 被 选中 。 这 种 向 有 更 好 适应 性 个 体 的 倾斜 
被 称 为 选择 压力 (selective pressure ) 。 

初 看 起 来 ， 好 像 应 采用 高 的 选择 压力 (例如 ， 只 选 最 适应 的 种 群 部 分 来 生成 下 一 代 中 的 
后 代 )。 然 而 ， 对 存在 局 部 优化 解 的 那些 问题 ， 这 可 能 导致 搜索 过 程 很 快 收敛 到 一 个 局 部 优化 
解 ， 从 而 完全 丢失 全 局 优化 解 。 在 相反 情况 下 ， 如 果 采 用 过 小 的 选择 压力 ， 则 会 造成 很 慢 的 
收敛 ， 其 至 不 收敛 ; 因此 上 述 两 种 极端 情况 均 应 避免 。 

基于 在 许多 应 用 中 业已 证 明 能 有 相对 较 满 意 的 性 能 ， 在 挑选 选择 压力 时 ， 一 个 首选 是 竞 
赛 选择 。 | 

竞赛 选择 

在 此 方法 中 ， 每 个 个 体 有 均等 机 会 随机 地 从 总 种 群 中 被 选中 并 参加 竞赛 。 每 次 竞赛 将 选 
择 £ 个 个 体 参加 ， 并 对 每 个 个 体 进行 适应 性 评估 。 在 k 个 个 体 中 最 适应 的 那个 个 体 将 成 为 整个 
竞赛 的 获胜 者 并 将 成 为 下 一 代 个 体 的 双亲 。 总 计 要 进行 4 场 这 样 的 竞赛 ， 以 确定 x 个 个 体 ， 并 
用 它们 生成 下 一 代 ， 它 所 保持 的 种 群 规模 与 前 一 代 的 规模 是 一 样 的 。 

很 显然 ， 当 为 1 时 选择 压力 就 完全 消失 ; 种 群 中 的 每 个 成 员 都 有 相等 机 会 被 用 来 生成 下 
一 代 。 当 k 值 很 大 时 ， 则 选择 压力 的 力度 也 相应 地 增 大 ， 因 为 从 k 个 随机 选择 的 个 体 中 ， 仅 是 
被 确定 具有 最 大 适应 性 的 个 体会 被 选择 作为 双亲 。 通 常 较 典 型 的 是 k 取 值 2>， 令 人 回想 起 中 世 
纪 由 两 个 骑士 进行 的 格斗 (或 竞赛 )。 


13.3.5 后 代 的 生成 


一 旦 通过 一 系列 竞赛 从 当前 代 中 选择 了 有 较 好 适应 性 的 那些 个 体 后 ， 必 须 将 它们 的 染色 
体 组 合 在 一 起 以 确定 这 些 个 体 的 成 分 ， 从 而 形成 它们 下 一 代 的 种 群 。 这 种 将 每 个 双亲 中 的 染 
色 体 的 一 部 分 组 合 起 来 以 生成 子女 染色 体 的 过 程 称 为 交叉 。 虽 然 存在 有 好 几 种 常用 的 交叉 形 
式 ， 下 面 的 讨论 将 被 限制 为 单 点 交叉 。 

1. 单 点 交叉 

在 单 点 交叉 中 ， 将 把 交叉 点 随机 地 定位 切割 在 4 和 B 每 个 双亲 m 位 染色 体 模式 的 第 p 位 处 。 
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该 切割 将 把 每 个 双亲 的 模式 分 为 两 部 分 ， 子女 1 的 染色 体 模式 由 双亲 A 模式 的 前 p 位 和 双亲 B 模 
式 的 后 m-P 位 组 成 。 子 女 2 的 染色 体 模 式 则 正好 相反 ， 由 双亲 8 模式 的 前 p 位 和 双亲 4 模式 的 后 
ip-p 位 所 组 成 。 如 术语 交叉 所 蕴含 的 ， 在 形成 子女 染色 体 模式 的 过 程 中 ， 是 将 双亲 的 染色 体 
模式 的 一 部 分 相互 交叉 而 形成 的 。 图 13-2 对 此 作 了 说 明 。 例 如 ， 让 我 们 来 观察 两 个 已 被 选 为 
双亲 的 个 体 。 每 个 个 体 有 63 位 长 的 染色 体 模式 

4 =001100101000000100001 010010100000010101010 000111111100000011000 
和 

B = 000001000000101000001 101000001010101010101 000110001010101010000 

如 果 切 割 点 定 在 第 15 位 ， 那 么 双亲 染色 体 的 两 部 分 分 别 为 : 

双亲 A (前 15 位 ): 001100101000000 

双亲 4 (后 48 位 ): 100001010010100000010101010000111111100000011000 

双亲 有 (前 15 位 ): 000001000000101 

双亲 B (后 48 位 ): 000001101000001010101010101000110001010101010000 


1 pp+l m 

1 pp+tl m 

1 pp+l m 

1 ppt+i m 
图 13-2 单 点 交叉 


在 进行 交叉 后 ， 将 产生 一 对 子女 : 

子女 1: 001100101000000 000001101000001010101010101000110001010101010000 

子女 2: 000001000000101 100001010010100000010101010000111111100000011000 

子女 的 基因 ， 即 它们 染色 体 的 个 体位 ， 是 它们 双亲 基因 的 混合 体 。 由 于 选择 过 程 偏 向 从 
当前 代 中 选择 有 较 好 适应 性 的 个 体 ， 因 此 子女 的 特征 是 由 较 好 适应 性 的 双亲 特征 的 混合 表现 。 
如 同 自然 界 中 一 样 ， 交 又 缓 惕 地 迫使 种 群 朝 更 强 ( 即 有 较 好 适应 性 ) 的 个 体 方向 演化 。 由 于 
这 是 一 个 渐进 的 、 相 对 而 言 是 可 预测 的 变化 ， 因 此 在 遗传 算法 中 通常 鼓励 使 用 交 又 遗传 操作 ， 
且 一 般 在 每 一 代 中 都 要 进行 。 

本 例 中 我 们 所 讨论 的 仅 是 单 点 交叉 方法 ， 应 注意 的 是 已 研究 了 其 他 的 一 些 方法 。 其 中 包 
括 多 点 交叉 和 一 致 交 叉 ， 在 前 者 中 要 进行 多 处 切割 并 使 多 个 较 小 的 染色 体 部 分 混合 在 一 起 ， 
在 后 者 中 ， 每 一 位 〈 或 基因 ) 是 从 任意 双亲 中 随机 选取 的 。 另 一 种 已 研究 的 方法 是 ， 从 双亲 
池 中 共享 使 用 基因 ， 即 一 个 后 代 中 的 每 个 基因 是 随机 地 从 该 池 中 一 个 双亲 处 选取 的 。 

2. 突变 

与 交 又 不 同 ， 突 变 出 现在 一 个 染色 体 的 孤立 的 基因 级 上 。 这 可 视 为 类 似 于 疾病 、 辐 射 或 
各 种 可 控 物 质 吸 入 对 生物 体 的 影响 。 突 变 将 导致 一 个 个 体 适应 性 的 重大 的 、 不 可 预测 的 变化 。 

在 前 面 求 函数 最 大 值 的 例子 中 ， 对 *、y 或 2 的 21 位 模式 中 的 最 左 位 加 以 改变 ， 将 导致 该 坐 
标 值 的 符号 改变 ， 但 幅 值 仍 保持 不 变 。 对 左 数 第 2 位 的 改变 (该 位 权 值 为 2?) 将 导致 x-、y 或 z 
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在 数值 上 发 生 524 288 的 变化 。 但 若 对 最 右 位 加 以 改变 ， 则 其 数值 变化 仅 为 1。 

当 一 个 个 体 的 +-、y 或 z 的 分 量 中 的 某 一 位 发 生 突变 时 ， 根 据 具体 发 生 在 哪 一 位 上 ， 将 造成 的 
坐标 值 的 变化 会 从 最 小 的 (+ 了 到 最 大 的 (+ 1 000 000)， 因 此 很 显然 ， 突 变 可 能 是 影响 一 个 个 体 适 
应 性 的 特别 强 的 因素 。 当 突变 的 概率 较 高 时 ， 就 会 使 较 适 应 的 个 体 特性 被 改变 的 机 会 也 相应 增高 
(从 而 会 以 剧变 方式 衰减 适应 性 )。 在 这 种 极端 情况 下 ， 高 突变 率 可 能 导致 遗传 算法 的 不 收敛 。 

由 于 突变 可 能 会 急剧 地 改变 个 体 的 适应 性 ， 且 与 交叉 的 影响 相 比 它 的 可 预测 性 差 的 多 ， 
因此 在 遗传 算法 中 通常 使 突变 出 现 的 机 会 维持 在 一 个 很 小 的 概率 。 这 就 一 方面 允许 在 种 群 中 
引入 已 突变 的 个 体 ， 另 一 方面 使 它们 出 现 的 速率 足够 慢 ， 从 而 防止 种 群 连续 地 偏离 对 一 个 优 
化 解 的 收敛 。 通 过 选择 和 交叉 ， 从 整体 来 看 ， 突 变 的 影响 会 逐渐 地 渗入 到 种 群 中 。 但 突变 有 
利 时 《〈 即 突变 改进 了 个 体 的 适应 性 )， 则 已 突变 的 个 体 被 选 作 产生 下 一 代 个 体 的 可 能 性 也 就 增 
大 。 这 就 会 自动 地 形成 有 利 突变 的 传递 ， 并 不 利 突变 消失 。 


13.3.6 变异 


前 几 节 所 述 的 仅 是 寻求 生成 下 一 代 成 员 的 一 些 方法 ， 而 决 非 是 全 部 。 除 了 仅 通 过 对 当前 
代 实 施 交 又 和 突变 来 生成 下 一 代 之 外 ， 还 可 采用 如 下 一 些 方 法 : 

* 从 当前 代 中 搬 取 少量 最 适应 的 个 休 作 为 下 一 代 的 一 部 分 

* 在 每 一 代 中 随机 地 创建 少量 新 的 个 体 ， 而 不 是 仅 在 算法 的 初始 化 阶段 随机 生成 个 体 

“在 逐 代 的 演变 中 允许 改变 种 群 的 大 小 


13.3.7 终止 条 件 


已 经 采用 了 一 些 策略 来 终止 遗传 算法 ， 这 些 方法 包括 从 对 预期 的 代 的 数目 进行 简单 地 计 
数 到 确定 与 真正 的 解 有 多 接近 以 使 其 收敛 。 在 最 简单 的 情况 下 ， 连 续 代 的 生成 执行 s 次 。 尽 管 
这 是 一 个 易于 实现 的 终止 条 件 ， 但 它 却 有 两 个 明显 的 缺陷 。 在 一 种 极端 情况 下 ， 种 群 很 可 能 
在 远 小 于 s 代 之 前 就 已 收敛 于 一 个 解 ， 而 在 另 一 种 极端 情况 下 ， 在 获得 满意 的 收敛 之 前 ， 仍 需 
要 经 过 很 多 代 。 

由 于 优化 解 在 事先 无 法 知道 ， 因 此 人 们 无 法 简单 地 通过 测量 当前 “最 好 解 ” 和 优化 解 之 
间 的 差距 来 确定 是 否 终止 遗传 算法 。 而 在 另 一 方面 ， 我 们 能 从 数值 分 析 领 域 中 借用 一 种 技术 
对 连续 迭代 的 结果 加 以 考察 ， 然 后 根据 连续 代 之 间 改 善 程度 来 确定 是 否 终止 。 当 然 此 时 遗传 
算法 也 会 像 各 种 数值 算法 一 样 在 一 个 解 的 附近 显示 出 振荡 ， 而 不 会 进一步 收敛 。 由 于 这 种 振 
荡 不 论 是 在 个 体 选 择 概率 差 接近 相同 (最 小 选择 压力 ) 情况 ， 还 是 在 高 突变 率 情况 下 ， 都 已 
为 实验 证 实 会 发 生 ， 因 此 单单 依靠 这 种 方式 来 终止 遗传 算法 时 ， 就 必须 较为 谨慎。 

还 有 另 一 种 终止 条 件 ， 它 是 基于 种 群 中 个 体 的 相似 程度 来 确定 的 。 当 个 体 解 候选 者 的 种 
群 收敛 于 一 个 优化 解 时 ， 由 于 它们 的 相似 性 会 增加 ， 因 此 测量 种 群 的 变异 性 就 相当 于 测量 收 
敛 性 。 对 一 个 遗传 算法 设置 多 个 终止 条 件 也 很 常见 。 . 


13.3.8 并 行 遗 传 算法 


从 概念 上 讲 ， 将 遗传 算 靶 改写 成 适用 于 多 处 理 机 的 问题 是 非常 直接 了 当 的 。 几 乎 立刻 可 
想到 采用 以 下 的 两 个 方法 : 

1) 让 每 个 处 理 器 独立 地 运行 于 个 体 的 一 个 隔离 子 种 群 上 ， 通 过 迁移 与 其 他 处 理 器 周期 地 
共享 它 的 那些 最 好 的 个 体 。 
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2) 让 每 个 处 理 器 在 一 个 公共 的 种 群 上 完成 算法 中 每 一 步 的 一 部 分 一 一 选择 、 交 叉 和 突变 。 

1. 隔离 的 子 种 群 

在 上 述 的 第 一 种 方法 中 ， 每 个 处 理 器 首先 独立 地 生成 它 自己 个 体 的 初始 子 种 群 。 然 后 每 
个 处 理 器 对 k 代 个 体 进 行 : 

* 适 应 性 的 评估 

。 从 它 的 子 种 群 中 选择 个 体 以 用 来 生成 下 一 代 

“在 它 的 子 种 群 上 完成 交叉 和 突变 计算 . 

在 经 历 上 述 f 代 后 (k> 1)， 这 些 处 理 器 就 与 其 他 的 处 理 器 共享 它们 的 最 好 个 体 。 

(1) 迁移 算 子 (migration operator)  ” 当 将 迁移 结合 进来 后 ， 种 群 的 变化 就 不 再 单 是 由 于 
继承 其 双亲 的 基因 造成 的 ， 偶 尔 也 会 有 随机 突变 所 造成 的 ， 此 外 也 是 由 于 引入 新 的 品种 所 造 
成 的 。 很 自然 的 是 ， 子 种 群 间 的 移动 通常 是 生存 反映 ， 虽 然 人 类 通过 提供 “输送 ”机 人 制 加 速 
(有 时 是 无 意 的 ) 了 这 一 过 程 。 这 些 被 “输送 ”品种 的 儿 个 例子 中 包括 将 兔子 品种 引入 澳 大 利 
亚 以 及 将 斑马 贻 贝 引入 到 北美 的 圣 . 劳伦斯 河流 系 和 大 寡 区。 在 遗传 算法 中 ， 迁 移 算 子 要 负 
责 的 任务 是 在 子 种 群 间 实 现 个 体 的 交换 。 这 些 任务 包括 : 

。 选 择 迁 民 (Selecting the emigrants ) 

。 发 送 迁 民 (Sending the emigrants ) 

。 接 收 移民 (Receiving the immigrants ) 

。 了 融合 移民 (Integrating the immigrants ) 

在 消息 传递 并 行 环境 中 ， 发 送 和 接受 被 选 的 个 体 相对 容易 实现 ， 但 对 个 体 的 选择 和 融合 
会 提供 有 趣 的 结果 。 从 每 个 子 种 群 中 选择 最 好 的 个 体 进行 迁移 并 将 已 接收 的 个 体 融 合 到 种 群 
中 以 替代 最 差 的 个 体 将 导致 更 快 的 收 你 。 所 以 通过 从 一 个 子 种 群 中 拷贝 一 些 较 适合 的 个 体 到 
另 一 子 种 群 以 代替 最 坏 的 个 体 将 会 达到 更 快 的 收敛 。 但 是 ， 以 这 种 方式 进行 选择 和 融合 最 终 
将 对 种 群 施加 太 多 的 选择 压力 ， 从 而 可 能 阻碍 结果 的 生成 。 此 外 ， 如 果 选 择 压 力 过 大 的 话 ， 
可 能 使 结果 的 改进 趋向 局 部 优化 而 非 全 局 优化 。 

引入 迁移 也 必 将 引入 通信 开销 。 如 同 使 用 消息 传递 的 其 他 并 行 计 算 一 样 ， 当 通信 时 间 开 
始 支配 总 的 计算 时 间 时 ， 并 行 算法 性 能 将 受到 影响 。 因 此 必须 考虑 从 进程 之 间 的 通信 信息 的 
频率 和 总 量 。 

(2) 迁移 模型 最 流行 的 迁移 模型 方法 是 

。 孤 岛 模型 (island model ) 

。 跳 石 模型 (stepping-stone model) 

在 孤岛 模型 中 ， 序 许 将 个 体 发 送 给 任何 其 他 子 种 群 ， 如 图 13-3 所 示 。 它 不 对 个 体 可 迁移 
到 何 处 加 以 限制 。 在 跳 石 模型 中 ， 对 迁移 作 了 限制 ， 它 只 允许 移民 移入 相 邻 子 种 群 。 图 13-4 
对 此 概念 作 了 说 明 。 由 于 限制 了 移民 可 迁移 的 目的 地 数目 ， 跳 石 模 型 可 减少 通信 开销 并 且 限 
制 了 消息 数 。 孤 岛 模型 由 于 允许 更 多 迁移 的 自由 ， 在 某 些 方 面 代表 了 较 好 的 自然 模型 。 但 是 ， 
这 种 模型 在 实现 时 会 有 显著 的 通信 开销 和 延迟 。 


子 各 用 岛 子 种 群 


迁移 路 从 每 个 岛 
向 其 他 每 个 岛 发 送 | 

有 限 的 迁移 路 径 
图 13-3 孤岛 模型 图 13-4 跳 石 模型 
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2. 并 行 实现 
下 面 的 伪 代 码 描述 了 从 进程 的 实现 : 
set generation num to 0; 
initialize Population (generation num); 
evaluate fitness of Population (generation num); 
while (not termination condition) { 
generation numtt+; 
select Parents (generation num) from 
Population{({generation num - 1); 
apply crossover to Parents(generation num) to produce 
Offspring (generation_ num); 
apply mutation to Offspring {generation num) to get 
Population (generation_ num); 
apply migration to Population (generation_ num); 
evaluate Population (generation num); 


} 
每 个 从 程序 将 执行 上 述 伪 代码 ， 并 在 生成 结果 后 将 被 返回 给 主 程序 。 在 生成 最 后 的 结果 之 前 ， 
主 程序 将 完成 某 些 分 析 。 

孤岛 和 跳 石 模型 均 有 优 缺 点 。 最 明显 的 优点 是 ， 除 了 每 隔 上 代 要 进行 “最 好 个 体 ” 的 通信 
之 外 ， 两 者 都 是 自然 易 并 行 的 。 也 就 是 说 ， 使 用 p 个 处 理 器 ， 每 个 独立 地 运行 在 
(population_size/p) 个 个 体 子 种 群 上 ， 从 而 可 潜在 地 使 : 代 的 计算 加 快 p 倍 。 

这 种 分 离 的 并 行 性 已 被 用 来 企图 解释 化 石 记录 中 明显 断 链 的 原因 。[Cohoon et al., 1987] 
提出 一 个 基于 “不 时 被 打 断 的 平衡 ”( “punctuated equilibria”) 理论 的 实现 方法 ， 它 为 在 环境 
发 生变 化 后 在 子 种 群 中 很 快 出 现 新 品种 的 理论 提供 了 基础 。 这 些 变 化 的 出 现 ， 是 由 于 迁移 结 
果 使 新 的 遗传 材料 引入 到 种 群 后 造成 的 。Cohoon 等 人 观察 到 ， 当 在 分 离 的 子 种 群 间 有 大 量 的 
个 体 迁 移 后 ， 很 快 就 可 找到 新 的 解 ， 正 如 化 石 纪录 指 明 在 相对 较 短 时 期 内 在 自然 中 出 现 了 重 
大 发 展 一 样 。 

由 于 每 隔 k 代 整个 并 行 化 将 被 中 断 ， 因 此 就 可 通信 交流 最 适应 个 体 的 信息 ， 用 这 种 方法 可 
获得 稍 小 于 P 倍 的 加 速 比 。 最 适应 个 体 的 通信 是 与 所 有 其 他 处 理 器 都 要 进行 还 是 只 在 “邻居 ” 
之 间 进 行将 会 影响 实际 的 加 速 比 。 处 理 器 之 间 的 通信 体系 结构 也 可 能 是 影响 因素 之 一 。 

在 跳 石 模型 中 ， 由 于 将 通信 限于 与 最 邻近 的 处 理 器 间 进行 ， 而 不 许 每 个 处 理 器 与 其 他 每 
个 处 理 器 通信 ， 因 而 即使 是 x 代 后 出 现 的 处 理 器 间 通 信也 将 减少 。 

如 易 并 行 方法 的 计算 优点 一 样 ， 它 有 一 个 潜在 的 缺点 ， 种 群 子 集 相 对 分 离 的 性 质 。 这 种 
子 集 的 分 离 增加 了 使 每 个 子 集 收敛 于 自己 局 部 优化 而 非 全 局 优化 的 可 能 性 ， 而 且 也 许 会 完全 
丢失 全 局 解 。 此 外 ， 由 于 组 成 每 个 种 群 子 集 的 个 体 数 的 减少 ， 将 会 增加 达到 收敛 所 需 的 代数 。 

这 里 要 补充 一 句 ， 遗 传 算法 中 的 这 种 分 离 /局 部 优化 现象 可 以 认为 在 大 自然 中 也 同样 存 
在 ! 研究 板块 地 壳 构 造 (地 球 地 壳 的 大 板块 互相 围绕 移动 、 越 过 以 及 移 人 ) 的 地 质 学 家 已 提 
出 了 对 过 去 的 板块 移动 的 计算 机 预测 。 其 中 一 个 板块 与 其 他 板块 脱离 接触 ， 从 而 构成 了 澳 大 
利 亚 的 大 陆 块 。 生 物 学 家 长 期 以 来 已 注意 到 该 地 区 中 存在 的 独特 物种 的 数量 ， 包 括 无 权 鸟 和 
大 型 跳跃 哺乳 动物 。 在 分 离 地 区 中 并 行 出 现 的 进化 并 不 一 定 导致 每 个 地 区 中 的 类 似 解答 ! 与 
此 相反 ， 可 能 的 结果 将 是 不 同 的 局 部 优化 。 

当然 ， 减 小 有 效 分 离 的 机 制 ， 会 增加 处 理 器 间 的 通信 ， 从 而 引入 了 自身 的 缺点 。 算 法 中 
顺序 (通信) 部 分 的 增加 以 及 使 用 多 个 相互 分 离 的 多 个 处 理 器 的 实际 加 速 比 的 减 小 就 是 这 一 
缺陷 的 表现 。 
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3. 公共 种 群 的 并 行 化 

与 分 离子 种 群 并 行 性 不 同 ， 可 采用 的 另 一 种 方法 是 ， 在 全 局 种 群 上 并 行 实现 遗传 算 子 。 
例如 ， 如 果 能 用 某 种 方法 将 个 体 上 的 信息 提供 给 每 个 处 理 器 ; 那么 这 些 处 理 器 就 可 并 行 地 完 
成 选择 、 交 叉 和 突变 。 

很 显然 ， 如 果 我 们 使 用 竞赛 选择 ， 那 么 处 理 器 可 运行 在 独立 的 个 体 对 上 。 类 似 地 ， 每 个 
处 理 器 可 独立 地 工作 在 被 选 个 体 的 子 集 上 以 完成 交叉 和 突变 操作 ， 并 评估 结果 的 适应 性 。 不 
幸 的 是 ， 虽 然 此 方法 能 有 效 地 并 行 化 遗传 操作 ， 但 它 对 加 速 整个 计算 几乎 不 起 什么 作用 ! 与 
将 种 群 信息 分 布 到 所 有 处 理 器 所 需 时 间 加 上 选择 过 程 的 通信 交换 所 需 时 间 相 比 ， 整 个 计算 时 
间 主 要 依赖 于 计算 各 种 操作 (选择 、 交 又 和 突变 ) 的 相对 时 间 。 在 许多 情况 下 ， 遗 传 算 子 几 
乎 不 需要 密集 计算 ， 因 此 整个 过 程 的 加 速 比 将 受 实际 通信 的 限制 。 

4. 共享 存储 器 系统 

如 果 个 体 被 保存 在 共享 存储 器 中 ， 那 么 每 个 处 理 器 在 实行 遗传 算法 的 过 程 中 都 要 访问 种 
群 并 且 可 以 读 /修改 个 体 。 若 将 个 体 分 配给 指定 的 处 理 器 ， 就 可 使 存储 器 访问 冲突 减 至 最 小 ， 
且 不 再 需要 同步 ， 从 而 可 避免 大 部 分 的 顺序 化 的 影响 。 除 了 会 导致 某 种 顺序 化 的 代 之 间 的 同 
步 外 ， 每 个 处 理 器 将 与 其 他 处 理 器 并 行 地 对 它们 的 本 地 子 种 群 进行 计算 。 由 于 处 理 器 间 的 通 
信 本 质 上 是 访问 存储 器 的 速度 ， 可 期 望 在 这 种 系统 上 求解 遗传 算法 的 时 间 可 减 小 到 与 分 布 式 
处 理 器 系统 相当 。 

5. 分 布 式 处 理 器 系统 

如 果 一 个 分 布 式 处 理 器 系统 中 的 所 有 工作 站 处 在 同一 子 网 中 ， 那 么 它们 处 理 器 间 的 通信 
将 争 用 网 络 资源 。 让 每 个 处 理 器 的 最 适合 个 体 与 其 他 处 理 器 进行 通信 的 简单 任务 将 意味 着 争 
用 网 络 带 宽 ， 并 会 导致 串 行 化 遗传 算法 中 的 一 部 分 。 通 过 使 用 分 离 的 子 种 群 使 这 些 串 行 部 分 
减 至 最 小 的 方法 ， 在 历史 上 即 是 用 来 使 并 行 化 变 得 最 大 的 方法 。 

男 一 方面 ， 如 果 能 做 到 将 处 理 器 分 离 成 许多 子 网 ， 那 么 就 不 必 最 小 化 子 种 群 间 的 通信 。 
为 此 ， 每 个 子 网 应 独立 于 其 他 子 网 在 它 的 处 理 器 间 进 行 通信 。 实 际 上 ， 除 了 并 行 化 〈 在 各 个 
处 理 器 级 ) 遗传 算法 算 子 所 需 的 计算 之 外 ， 上 述 方法 至 少 可 部 分 地 并 行 化 (在 子 网 级 ) 处 理 
器 间 通信 。 ， 

至 少 可 实现 部 分 通信 并 行 化 的 另 一 种 机 制 是 将 处 理 器 互联 成 二 维 或 三 维 环 ， 即 环形 网 。 
这 就 将 通信 限制 在 相 邻 互联 的 处 理 器 之 间 进 行 ， 对 应 于 分 离子 种 群 的 跳 石 模型 。 通 过 将 处 理 
器 间 的 通信 限制 在 相 邻 子 种 群 间 的 个 体 迁 移 ， 同 时 允许 每 个 处 理 器 与 其 他 处 理 器 并 行 地 、 儿 有 
立地 运行 在 自己 的 子 种 群 上 ， 那 么 就 可 以 消除 大 部 分 的 通信 顺序 化 的 影响 。[Marin，Trelles- 
Salazar，and Sandoval，1994] 表 明 使 用 6 个 处 理 器 便 可 获得 近 线 性 的 加 速 比 ， 并 且 还 断言 这 一 
结果 也 将 适合 于 具有 更 大 规模 的 工作 站 网 络 。 


13.4 连续 求 精 


还 有 许多 其 他 的 搜索 算法 可 用 来 获得 我 们 所 讨论 的 优化 问题 的 好 的 解 。 最 直观 的 方法 之 
一 是 应 用 连续 求 精 来 搜索 网 格 。 开 始 时 ， 所 选择 的 网 格 空间 允许 使 用 蛮 干 (brute-force ) 考察 
方法 来 搜索 容积 ， 且 只 需要 很 少时 间 。 在 所 讨论 的 问题 的 环境 中 ， 网 格 大 小 可 以 从 每 10/1000 
点 开始 考察 。 由 于 该 容积 的 每 一 边 的 跨 距 是 从 -1 000 000 到 +1 000 000， 则 每 次 10 000 的 搜索 
增 量 将 意味 着 只 需 评 估 大 约 200 x 200 x 200 个 点 ， 或 需 完成 略 小 于 107 个 函数 的 评估 。 如 果 保 
留 K 个 最 好 点 , 再 以 每 个 点 为 中 心 形成 一 个 立方 体 , 然后 用 更 细 的 网 格 空间 对 每 个 点 进行 评估 ， 
例如 使 增 量 大 小 为 100， 那 么 此 时 就 需 完成 大 约 K x 105 个 附加 的 函数 评估 。 
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再 次 ， 为 K 个 子 容积 中 的 每 一 个 保留 K 个 最 好 点 并 对 网 格 大 小 为 1003 的 每 一 边 进行 穷 举 详 
尽 搜索 ， 则 将 导致 大 约 K? x 10 个 附加 的 函数 评估 。 如 果 每 次 保留 10 个 最 好 点 ， 则 该 方法 在 完 
成 大 约 10 个 函数 评估 后 才 会 终止 。 虽 然 该 方法 比 起 对 该 容积 中 每 个 点 进行 完全 穷 举 的 考察 来 
说 ， 所 需 的 评估 数 少 了 许多 (10: 比 108 )， 但 这 仍 是 一 个 密集 计算 ， 且 不 能 保证 被 定位 的 点 
可 使 函数 得 到 优化 。 但 是 ， 对 于 遗传 算法 的 求解 来 说 ， 所 需 的 总 的 函数 的 评估 数 一 般 要 小 好 
几 个 数量 级 (参见 习题 13-1)。 

上 述 方法 很 易 并 行 化 。 可 将 原始 容积 分 成 个 子 容积 ， 而 kK 个 处 理 器 中 的 每 一 个 以 易 并 行 
方式 在 被 分 配 的 子 容积 中 进行 搜索 。 当 算法 的 该 部 分 搜索 结束 后 ， 每 个 处 理 器 将 K 个 最 好 点 的 
候选 者 送 回 给 主 进程 。 由 主 进程 确定 K? 个 点 中 的 哪 K 个 是 最 好 的 并 将 它们 再 分 配给 各 个 从 进 
程 。 每 个 从 进程 然后 在 自己 的 子 容积 中 与 其 他 子 进程 一 起 并 行 地 搜索 。 

[Schraudolph and Belew，1992] 将 连续 求 精 概念 应 用 到 遗传 算法 。 他 们 的 方法 使 用 相对 较 
低 的 精度 ， 如 用 5 位 来 表示 每 一 个 坐标 。 当 坐标 的 最 高 位 显示 出 稳定 时 ， 就 将 它 分 离 并 保存 起 
来 ， 然 后 将 余下 的 位 左 移 一 位 ， 并 加 入 一 位 新 的 最 低位 。 这 就 相应 于 在 每 个 坐标 中 将 原来 的 
间隔 分 为 一 半 。 此 后 它们 就 在 已 缩小 的 空间 中 重新 开始 遗传 算法 的 优化 操作 。 


13.5 和 爬山 法 (hill climbing ) 


另 一 个 常用 的 搜索 和 优化 方法 与 人 们 用 来 定位 局 部 最 大 值 的 算法 是 相同 的 。 例 如 在 树林 
中 被 蒙 住 眼睛 (或 是 在 浓 雾 或 暴风 雪 中 徒 步行 走 ) 徒步 仆 山 寻找 山顶 。 已 有 的 经 验 可 能 提示 
我 们 有 一 种 方法 可 达到 山顶 ， 即 让 移动 的 方向 总 是 上 升 的 ， 或 至 少 永 远 不 要 朝 下 坡 方 向 前 进 。 
无 疑 ， 这 种 方法 会 保证 你 绝 不 会 走向 比 你 目前 所 在 位 置 的 更 低 的 地 点 ， 且 根据 地 形 最 终 你 可 
到 达 树 林 中 的 最 高 处 。 

但 是 ， 很 可 能 你 最 终 到 达 的 是 一 个 小 高 地 的 顶部 (局 部 最 大 值 )。 由 于 此 时 你 周围 的 地 形 
均 低 于 你 目前 所 在 位 置 (而 规则 又 不 允许 你 向 低 处 移动 )， 因 而 你 将 无 法 跨 过 小 山谷 而 限 上 其 
他 的 山峰。 仅 在 理想 的 情况 下 才能 产生 正确 结果 的 算法 显然 没有 太 多 的 吸引 力 。 那 么 ， 我 们 
应 如 何 来 修改 它 ? 

如 果 我 们 跳出 上 述 框框 ， 即 只 有 一 个 徒步 者 处 在 某 一 点 ， 然 后 按照 局 部 地 形 礁 向 局 部 的 
峰 顶 ， 而 是 将 问题 一 般 化 为 有 z 个 徒步 者 从 m 个 随机 点 出 发 展 山 ， 就 可 使 问题 迎刃而解 。 如 果 
每 个 徒步 者 按照 腿 升 算法 决 不 从 他 或 她 的 起 始 位 置 向 下 移动 ,那么 他 们 中 的 每 一 个 都 将 到 达 
一 个 局 部 的 最 高 点 。 直 观 地 ， 如 果 徒 步 朴 山 者 越 多 且 他 们 的 出 发 点 越 分 散 ， 则 至 少 他 们 中 的 
一 个 到 达 树 林 中 最 高 峰 的 可 能 性 就 越 大 。 就 算 该 方法 不 能 保证 徒步 他 山 者 将 到 达 最 高 峰 ， 但 
只 要 增加 的 山 者 的 数目 ， 并 确保 他 们 的 出 发 点 是 随机 的 ， 则 就 可 使 不 能 达到 实际 顶峰 的 可 能 
性 变 为 任意 小 。 

这 实质 上 就 是 蒙特 卡 罗 搜 索 技术 的 要 点 。 如 在 3.2.3 节 中 所 提 到 的 ， 该 名 称 来 自 蒙特 卡 罗 
市 的 主要 特征 : 赌 塘 。 概 念 上 ， 我 们 “都 鹏 子 ” 等 价 于 一 个 礁 高 者 产生 一 个 随机 的 出 发 地 点 。 
当 出 发 位 置 是 随机 选择 时 ， 一 个 “幸运 ”山子 点 ( 息 山 者 的 出 发 位 置 正好 在 最 高 峰 的 旁边 ) 
和 一 个 “ 倒 赴 ” 般 子 点 ( 疏 高 者 的 出 发 位 置 正 好 在 小 山峰 的 旁边 ， 从 而 排除 了 到 达 最 高 峰 的 
可 能 ) 之 间 的 差别 是 纯 伐 幸 的 ， 故 此 名 称 应 是 恰当 的 ! 

求解 的 实现 可 以 用 静态 分 配方 法 或 是 用 动态 工作 池 方 法 。 在 静态 方法 中 ， 只 需 简 单 地 在 
为 不 同 的 处 理 器 划分 要 搜索 的 区 域 ， 并 为 每 个 处 理 器 生成 一 个 随机 的 出 发 点 ， 此 后 跟随 仆 山 
者 的 移动 到 达 局 部 最 高 点 。 每 个 处 理 器 随后 将 它 的 查找 结果 返回 给 主 进程 ， 最 后 由 主 进程 确 
定 哪 一 个 爬山 者 找到 了 最 高 点 。 动 态 方法 则 意识 到 各 个 仆 山 者 在 到 达 它 们 的 局 部 峰 顶 之 前 ， 
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有 些 爬 山 者 将 比 另 一 些 会 有 更 长 的 遍历 ， 或 是 说 有 些 热 山 者 可 能 比 其 他 的 要 惟 得 更 快 〈《 相 应 
于 较 快 的 处 理 器 )。 不 论 是 哪 一 种 方法 ， 某 些 处 理 器 可 能 在 其 他 处 理 器 之 前 完成 。 对 该 问题 的 
一 个 使 处 理 器 处 于 忙碌 状态 的 自然 求解 方法 是 ， 将 欲 搜索 的 区 域 分 解 成 更 小 的 区 段 ， 当 一 个 
处 理 器 完成 了 目前 正 处 理 的 区 段 并 报告 其 结果 后 ， 再 给 它 分 配 一 个 新 的 搜索 区 段 。 


13.5.1 银行 业务 应 用 问题 


任何 大 公司 在 涉及 公众 的 金融 管理 时 经 常 磁 到 的 问题 是 “我 们 客户 应 将 款 付 到 何 处 ? ” 
当 大 部 分 商务 属 本 地 时 ， 回 答 很 显然 : “直接 付 给 公司 ! ”但 当 商 务 活动 具有 全 国 性 时 ( 且 越 
来 越 多 地 具有 国际 性 时 ) ， 那 么 很 显然 上 上 述 的 回答 过 于 幼稚 。 

在 客户 向 公司 付款 的 日 期 和 公司 收 到 该 存款 的 日 期 之 间 会 有 邮 汇 的 延迟 。 此 外 ， 在 公司 
收 到 付款 和 公司 将 该 款 存 人 银行 之 间 还 有 一 个 存款 处 理 的 延迟 。 最 后 ， 银 行 通过 它 的 全 国 和 / 
或 国际 银行 系统 处 理 该 款 的 收取 和 将 此 付款 划 给 公司 的 银行 账户 之 间 又 有 一 个 延迟 。 在 理想 
条 件 下 (一 个 本 地 顾客 的 所 开支 票 的 银行 恰好 是 该 公司 设 有 账户 的 银行 )， 公 司 在 顾客 邮 汇 的 
当天 收 到 付款 ， 并 在 该 银行 结账 前 将 该 款 存 入 ， 而 在 当晚 的 半夜 该 存款 被 划 入 到 该 公司 的 账 
户 上 。 当 条 件 不 太 理想 时 ， 国 内 的 邮 汇 可 能 要 有 3~5 天 的 延迟 ， 正 好 错过 银行 当天 的 结账 时 间 
又 会 耽误 一 天 ， 而 在 将 付款 资金 划 到 账户 时 恰 又 赶 上 联邦 结账 的 日 期 ， 这 又 将 延误 1~3 天 。 从 
顾客 最 初 的 邮 汇 付款 到 公司 在 账户 中 接收 到 该 付款 的 资金 的 延迟 时 间 乘 上 付款 的 总 金额 ， 术 
语 上 称 为 是 浮动 (float)。 当 顾客 和 公司 的 所 在 地 跨国 时 这 种 加 权 的 平均 收 款 的 延迟 ， 即 浮动 
天 数 (float-days )， 还 要 增加 。 

这 种 4~9 天 其 至 更 多 天 数 的 浮动 天 数 对 单个 客户 来 讲 也 许 算 不 上 什么 (也许 还 会 受 欢 
迎 ! )， 但 当 每 天 也 许 涉 及 几 千 万 美元 的 大 量 付款 时 ， 公 司 就 会 有 不 同 的 观点 。 如 果 利 息 的 年 
利率 为 8%， 那 么 对 于 每 天 一 千 万 美元 的 付款 ， 就 相当 于 每 年 有 80 万 美元 的 未 清 账 款 ， 这 或 者 
可 成 为 公司 的 附加 收入 ,或 是 可 使 公司 不 用 去 融资 一 千 万 美元 。 

意识 到 这 一 问题 的 严重 性 ， 一 些 国 内 和 国际 银行 已 提供 了 称 为 锁 箱 (lockbox) 的 分 布 式 
收集 工具 。 为 了 收取 付款 ， 银 行将 在 全 美国 以 及 与 该 公司 有 业务 来 往 的 其 他 国家 中 设置 许多 
这 种 锁 箱 。 银 行将 由 专人 管理 每 个 锁 箱 设备 ， 每 天 若干 次 从 邮局 检索 公司 的 邮件 ， 打 开 它 并 
将 付款 存 人 到 公司 的 账户 。 为 此 ， 公 司 将 直接 告知 它 的 顾客 ， 请 他 们 邮寄 付款 到 锁 箱 ， 从 而 
就 可 达到 最 快 加 拢 顾客 资金 的 目的 。 如 此 ， 该 优化 问题 就 简化 为 该 设置 多 少 个 锁 箱 以 及 在 何 
处 设置 锁 箱 以 使 平均 浮动 为 最 小 的 问题 。 

通常 的 情况 是 ， 有 n 个 城市 可 作为 设置 锁 箱 的 场所 ; 例如 ， 单 单 在 全 美国 设立 超过 100 个 
的 锁 箱 ， 而 在 世界 其 他 地 区 则 还 要 设置 几 百 个 。 确 定 锁 箱 的 优化 数 及 设置 场所 的 问题 ， 概 念 
上 可 简化 为 : 


set Float_days to 1000; 
for (i = 1; i <= MaxLockboxes; i++) 
for {all possible placements of i lockboxes) { 
compute CurrentFloat_ days; 
if (Float_days > CurrentFloat_days) ( 
Float_Gays = CurrentFloat. days; 
Save i and lockbox placement pattern; 
} 


} 
这 里 的 主要 计算 问题 是 ， 仅 有 7 个 位 置 可 存放 第 一 个 锁 箱 ， 但 却 有 zz-1)/2 种 方法 来 定位 它们 
中 的 两 个 ， 而 要 存放 & 个 锁 箱 则 共有 mA(kD)(2- 扩 0D 种 方法。 考虑 到 仅 有 200 个 城市 可 作为 存放 
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锁 箱 的 候选 地 点 ， 且 仅 有 6 个 锁 箱 要 存放 在 这 些 城市 中 ， 从 而 为 计算 平均 浮动 值 大 约 要 进行 
8 x 10" 锁 箱 位 置 的 评估 。 此 外 ， 对 每 个 锁 箱 布 置 的 计算 也 并 不 简单 。 

由 于 两 点 之 间 邮 汇 的 延迟 依赖 于 邮寄 出 的 日 子 是 一 星期 中 的 哪 一 天 ， 因 此 银行 通常 在 计 
算 中 使 用 的 是 在 不 间断 基础 上 所 收集 到 的 邮 汇 数据 。 其 结果 便 是 形成 邮 汇 数据 的 一 个 三 维 数 
组 ， 其 规模 为 x x n x 7。 由 该 数组 的 下 标 可 识别 邮 汇 账 款 的 地 区 、 邮 汇 至 哪个 地 区 以 及 在 星期 
几 汇 出 的 。 该 数组 中 元 素 的 值 就 代表 了 该 款 从 邮 汇 到 被 收 到 之 间 所 消费 的 时 间 ， 即 平均 邮 汇 
延迟 天 数 。 

为 奉 某 公司 评估 所 需 锁 箱 的 最 佳 个 数 及 存放 地 点 ， 必 须知 道 应 收 账 款 (传递 给 公司 的 付 
款 ) 的 模式 。 银 行 记 录 公 司 应 收 账 款 的 重要 的 统计 子 集 ， 并 将 它们 按 来 源 地 点 、 盖 邮戳 的 星 
期 日 期 以 及 付款 金额 加 以 分 类 。 

在 最 简单 的 情况 下 ， 对 特定 的 锁 箱 安放 位 置 的 平均 浮动 天 数 的 评估 首先 是 要 为 每 个 来 源 
区 域 分 配 一 个 锁 箱 。 邮 汇 目的 地 的 选择 则 基于 被 采集 到 的 应 收 账 款 的 数据 ， 且 为 了 避免 混 消 ， 
在 一 个 地 区 中 的 每 个 顾客 将 被 告知 应 将 款 付 到 同一 锁 箱 。 对 每 个 来 源 区 ， 则 应 选用 对 公司 实 
际 应 收 账 款 模式 来 讲 具 有 最 小 平均 邮 汇 天 数 的 目的 地 锁 箱 来 接收 付款 。 在 这 种 收 坎 模式 中 ， 
将 对 每 笔 付 款 用 它 的 总 额 和 被 汇 出 的 日 期 加 以 加 权 。 下 面 列 出 的 是 计算 一 个 特定 kt 个 锁 箱 选 址 
模式 的 平均 浮动 天 数 的 算法 : 

TotalFloat = 0; 


for all_ receivables { 
accumulate amount date-mailed weighted mail delay to each lockbox; 
accumulate each region’'s. total payments; 
accumulate number of_items_mailed from region; 
accumlate TotalReceivables; 
} 
for each_ region { 
determine destination lockbox; 
determine AverageMailDelay; 
} 


for (i = 1; i <= n; i++) 
TotalFloat = TotalFloat + Total amount; * AverageMailDelay;; 
CurrentFloat_days = TotalFloat/TotalReceivables; 


如 果 对 特定 锁 箱 选 址 模式 的 浮动 天 数 的 评估 可 在 100 ms 内 完成 (相当 乐观 的 )， 那 么 在 
200 个 可 能 场所 中 为 6 个 锁 箱 选 址 的 所 有 可 能 的 评估 将 约 需 2000 年 。 显 然 ， 即 使 一 个 并 行 化 的 
改进 可 加 快 1000 倍 ， 仍 不 足以 使 所 述 算法 有 任何 实际 意义 。 


13.5.2 爬山 法 在 金融 业务 中 的 应 用 


如 果 从 不 同 角度 来 处 理 这 一 问题 ， 则 就 有 可 能 在 一 个 较为 合理 的 计算 时 间 内 找到 一 个 好 
的 解 。 如 果 不 是 用 穷尽 方法 去 评估 n 个 可 能 场所 中 布置 :个 锁 箱 的 每 一 种 可 能 ， 而 是 把 它 视 为 
一 个 k 维 地 形 并 使 用 仆 山 方法 ， 那 么 就 会 使 情况 大 为 改善 。 

就 如 徒步 假山 者 在 一 个 x-y 的 平面 中 移 步 那样 ， 不 管 是 往 哪个 方向 移动 总 是 会 在 高 度 上 得 
到 最 大 的 局 部 改善 ， 那 么 该 问题 就 可 变 为 确定 使 浮动 天 数 有 最 大 减少 的 锁 箱 位 置 中 增 量变 化 
的 问题 。 借 助 增 量 地 改变 所 在 地 ， 最 终 就 可 得 到 代表 浮动 天 数 局 部 最 小 值 的 解 。 

如 同 徒步 展 山 者 的 例子 一 样 ， 随 机 地 生成 m 个 初始 出 发 点 。 在 这 种 情况 下 ， 它 们 就 相当 于 
为 个 锁 箱 选 定 m 种 布局 。 对 于 每 一 个 初始 的 个 锁 箱 的 选择 模式 ， 我 们 将 确定 一 个 锁 箱 位 置 的 
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哪 一 个 变化 会 使 浮动 天 数 有 最 大 的 减少 ， 然 后 就 采用 哪 种 变化 ， 重 复 地 进行 这 一 个 过 程 。 


for (i = 1; i <= m; I++) { 
Generate random siting pattern, Pm, of k lockboxes 
from n possibilities; 
Compute fd = FloatDays (pm); 
for (j = 1; j <= k; j++) { 
x= 1; 
while {x != 0) { 
x= 0; /* clear flag */ 
for{(s=1;s<= (n-k) ;s++){ /*try all possible lockbox j placements*/ > 
Evaluate fd Temp as the FloatDays of placements of lockbox j; 
if (fd Temp < fdq) { /* see whether float improved*/ 
/* keep looping if improvement was made*/ 
/* save float_days for this placement */ 
/* save placement that was responsible */ 


/* float for starting pattern */ 

/* vary each of the K lockboxes */ 

/* set a continuation flag */ 

/* loop while improvement is possible */ 


人 
kb 
| 


X = 1; 
fad = fa Tenmp; 
Save placement,; 
} 
} 
} 
} 
} 
由 于 me 是 一 个 常数 ， 类 似 于 独立 寻找 山顶 的 徒步 假山 者 人 数 ， 因 此 在 while 循 环 中 涉及 O(n) 
项 。 在 while 中 的 循环 数 最 坏 将 是 指数 式 的 而 不 是 阶乘 的 ， 而 在 实际 中 则 更 优 于 这 一 情况 ， 


即 大 多 数 的 局 部 优化 解 只 需 几 十 次 循环 就 可 得 到 。 


13.5.3 并 行 化 

如 前 面 所 指出 的 那样 ， 该 问题 的 并 行 化 是 相当 直截了当 的 。 我 们 可 以 对 p 个 进程 中 的 每 一 
个 ,分 布 不 同 的 “种 子 ”"， 并 使 每 一 个 生成 个 锁 箱 的 m/p 个 随机 布局 ， 或 是 用 前 面 讨论 过 的 工 
作 字 方法 。 在 后 一 方法 中 ， 当 进程 完成 它们 的 最 初 设置 后 ， 每 个 进程 将 请 求 给 予 额外 的 起 始 
布局 以 继续 工作 。 
13.6 小 结 


本 章 介绍 了 以 下 概念 : 
:分支 限界 技术 

.并行 遗 传 算法 

. 连续 求 精 法 

. 谎 山 法 

本 章 还 介绍 了 以 下 重要 的 遗传 算法 的 术语 : 
.交叉 

. 突变 


推荐 读物 


在 本 章 的 分 支 限 界 这 一 节 中 ， 我们 没有 探讨 特定 问题 ， 而 只 是 简单 地 概述 了 这 一 基本 技 
术 。 背 包 问 题 通常 用 来 描述 搜索 和 优化 技术 ， 在 许多 教科 书 中 都 可 找到 ， 甚 至 有 一 本 专著 全 
部 讨论 这 一 问题 [Martello and Toth，1990]。 类 似 地 ， 在 [Lawler et al.，1985] 中 对 旅行 商 问题 
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做 了 全 面 的 论述 。 

在 [Lawler and Wood，1996] 对 分 支 限 界 问 题 做 了 早期 的 评述 。 有 关 并 行 的 分 支 限界 方法 
的 探讨 可 在 [Lai and Sprauge，1985]、[Kumar and Kanal，1984]、[Wah，Li, and Yu，1985] 中 
找到 。[Wah and Ma，1982] 和 [Mohan，1983] 对 并 行 的 最 佳 优先 策略 进行 了 研究 。 各 种 并 行 图 
和 树 搜索 算法 可 在 [Quinn and Deo，1984] 中 找到 。 

[Michalewicz，1996] 对 遗传 算法 作 了 很 好 的 介绍 。 其 他 的 有 关 教 科 书 包括 [Bick，1995]、 
[Fogel，1995]、[Goldberg，1989] 和 [Mitchel，1996]。 有 关 并 行 遗传 算法 的 进一步 的 信息 可 在 
[Chipperfield and Fleming ，1996] 中 找到 。 在 [Biethahn and Nissan，1995] 中 论 及 了 管理 的 应 用 ， 
而 有 关 工 程 的 应 用 则 可 参见 [Dasgupta and Michalewicz，1997]。 此 外 ， 有 好 几 本 刊物 讨论 遗 
传 算法 、 并 行 搜索 和 优化 ， 其 中 包括 LEEE Transactions on Evolutionary Computation。 
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科学 /数值 习题 


13-1 


13-2 


13-3 


编写 求解 8 皇后 问题 的 并 行程 序 ， 即 在 8 x 8 棋盘 上 ， 找 出 8 个 皇后 的 安放 位 置 ， 使 得 没 
有 两 个 皇后 会 互相 攻击 (不 在 同一 列 或 对 角 线 上 )。 由 于 每 一 个 皇后 必须 放 在 棋盘 的 不 
同行 上 ， 因 此 每 个 解 可 用 每 个 皇后 的 所 在 列 的 位 置 来 表示 ， 即 用 一 个 8 元 (x1，x2， 久 3， 
…、Xi，"…，Xs) 来 表示 ， 其 中 xi 是 皇后 i 所 在 列 的 位 置 。x; 的 约束 条 件 为 1 <x; < 8。 还 
应 注意 的 是 ， 两 个 皇后 的 所 在 位 置 (a, 5) 和 (c, qd) 不 能 处 在 同一 对 角 线 上 ， 即 不 能 有 a-b 
='c-d 或 a + b= c+d。 

用 遗传 算法 方法 编写 一 个 并 行程 序 以 寻找 函数 f(x, y, z) = -x + 1 000 000x-y?~ 40 000y-z? 
(13.3.3 节 中 所 使 用 的 ) 的 最 大 值 。 修 改 此 程序 以 使 用 户 可 输入 任何 三 维 函数 。 对 代码 
加 以 编排 ， 以 确定 评估 fy, 引 程序 所 需 的 次 数 。 

用 13.4 中 所 讨论 的 连续 求 精算 法 ， 编 写 寻找 上 题 函数 中 的 最 大 值 的 并 行程 序 。 


现实 生活 习题 
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Shortpath 房 地 产 公司 的 总 办 公 室 中 有 一 组 互联 的 PC。Shortpath 和 需要 一 个 并 行程 序 使 它 
的 房地产 代理 商 能 设计 一 个 展览 房屋 的 计划 表 ， 它 能 使 巡视 所 需 时 间 减 至 最 小 。 试 开 
发 恰当 的 测试 数据 和 程序 。 
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13-6 


13-7 


13-8 


13-9 


种 二 部 分 党 法 和 应 用 


迈 殉 想 要 进行 环绕 欧洲 的 旅行 直到 他 发 现 有 许多 看 起 来 非常 诱 人 的 糕点 和 面包 的 
Bickerei 点 心 店 。 为 了 乘 火车 旅行 ， 他 需要 在 小 旅行 袋 中 装 吃 的 东西 ， 但 有 以 下 一 些 
限制 : 
1) 他 要 很 多 品种 ， 但 每 样 不 能 超过 两 个 。 
2) 他 需要 最 大 量 的 卡路里 ， 但 这 不 一 定 与 食品 容积 有 关 。 
3) 所 装 人 的 食品 不 能 超过 旅行 袋 的 容积 极限 。 
开发 一 个 并 行程 序 ， 从 描述 Bickerei 销 售 食品 的 5 元 组 (长 度 ， 宽 度 ， 厚 度 ， 食 品类 型 ， 
卡路里 值 ) 集合 中 很 快 地 挑 出 他 旅行 所 需 的 各 种 食品 。 除 了 编写 程序 外 ， 你 还 需 开发 
一 个 有 20 个 数据 项 的 集合 ， 并 用 它 来 检验 你 的 程序 。 
给 定 一 组 矩形 ， 其 中 第 个 矩形 的 面积 为 4;， 试 编写 一 个 并 行程 序 在 一 个 大 矩形 中 定位 
这 组 什 形 ,但 要 遵从 以 下 的 约束 条 件 : 
1) 各 个 矩形 必须 没有 重合 。 
2) 所 有 n 个 较 小 的 矩形 必须 为 一 个 大 的 矩形 所 包含 。 
3) 较 大 的 矩形 的 面积 应 是 最 小 的 。 
(注意 : 该 问题 是 集成 电路 布局 问题 的 简化 版 。 更 复杂 的 布局 问题 有 与 较 小 的 矩形 间 的 
关系 相关 的 更 多 约束 条 件 。) 
Nat-Ex 是 一 个 全 国 性 的 包 囊 传 递 公司 ， 它 正在 对 它 的 收集 和 散发 包 衷 的 “集散 中 心 ” 
的 布点 进行 重新 评估 。 理 想 的 布点 应 是 将 这 些 集散 中 心 布 放 在 全 国 各 枢纽 地 ， 使 成 本 
和 传递 时 间 可 减 至 最 小 。 你 被 委任 从 事 对 这 些 集散 中 心 可 能 分 布 在 不 同 地 点 的 研究 ， 
并 基于 遗传 算法 编写 一 个 并 行程 序 。 你 可 以 假设 被 收 的 包 右 数量 将 正比 于 人 口 数量 ， 
且 作 为 初步 近似 ， 只 考虑 布点 在 大 城市 。 编 写 该 程序 ， 并 确定 恰当 的 输入 数据 和 约束 
条 件 。 其 中 一 个 约 东 条 件 便 是 集散 中 心 的 数量 。 
与 习题 13-7 相 当 类 似 的 问题 是 航线 中 心 的 选 址 。 试 编写 一 个 并 行程 序 为 一 条 航线 的 中 
心 点 在 全 国 的 布点 找到 最 好 的 位 置 ， 使 该 航线 能 获得 最 大 的 收益 。 同 样 你 必须 确定 输 
入 数据 和 约束 条 件 。 
最 近 发 现 的 小 行星 Geometrica 具 有 特别 异常 的 表面 。 通 过 各 种 观察 ， 它 的 表面 可 用 以 下 
公式 加 以 模仿 : 
h= 35 000 sin(30)sin(2p) + 9700 cos(100)cos(20p)-800sin(250 + 0.037) 
+ 550 cos(p + 0.27x) | 

其 中 h 是 高 于 或 低 于 海平 面 的 高 度 ，60 是 赤道 平面 角 (定义 了 地 球 上 的 经 度 )， 而 p 是 极 
平面 角 (定义 了 地 球 上 的 纬度 )。 
1) 用 息 山 法 编写 一 个 顺序 程序 以 找 出 在 Geometrica 表 面 海平 面 上 最 高 点 处 的 位 (0, p) 

位 置 。 
2) 为 第 1 问 开发 一 个 易 并 行 求解 方法 。 
3) 为 第 1 问 开 发 采用 工作 池 的 并 行 求解 方法 ， 假 设 条 件 是 用 来 求解 该 问题 所 使 用 的 各 

工作 站 的 能 力 有 很 大 差异 。 
4) 对 用 前 面 三 种 方法 求解 所 需 的 模拟 时 间 进 行 比较 。 


13-10 一 个 常 磁 到 的 问题 称 为 “箱子 打包 (bin packing)”， 它 要 解决 的 问题 是 要 将 上 个 有 不 


同 特征 的 物体 放 到 小 于 k 个 的 类 和 目 即 “ 箱 子 ” 中 。 尽 管 这 是 一 个 在 节日 里 向 亲朋 好 友 
赠送 一 套 礼 品 时 《你 不 得 不 寻找 能 装 得 下 所 有 物品 的 最 便宜 的 盒子 ) 或 在 工业 中 ( 必 
须 对 一 组 有 不 同 能 力 和 速度 的 机 器 加 以 分 配 ， 以 优化 地 生产 不 同 的 产品 ) 经 常 磁 到 的 
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问题 ， 但 你 被 指定 来 解决 一 个 不 同 的 问题 。 这 已 引起 有 鲍 力 〈 且 富有 ) 人 的 注意 ， 即 
21 点 blackjack 游 戏 也 适用 此 模型 : 每 个 游戏 者 试图 得 到 从 2 张 到 10 张 直至 更 多 张 纸牌 ， 
而 它们 的 值 加 起 来 不 能 超过 21 点 但 又 与 庄家 的 牌 值 和 相同 或 是 比 庄家 的 更 高 。 所 有 前 
面 已 发 牌 的 值 均 是 已 知 的 ， 此 外 ， 一 副 牌 中 每 种 值 的 数量 也 是 已 知 的 。 你 被 雇佣 来 首 
先 提 出 一 个 顺序 算法 以 计算 出 你 要 的 下 一 张 牌 会 “ 崩 ” 掉 你 手 上 牌 的 可 能 性 〈 导 致 什 
总 和 超过 21 点 )， 然 后 再 设计 一 个 并 行 算 法 。 


有 一 个 有 魄力 的 企业 家 已 断定 他 有 一 个 绝 好 的 机 会 去 将 他 对 狗 的 喜爱 与 巨大 财产 组 合 


在 一 起 ， 从 而 可 垄断 新 的 狗 品 种 Softie 的 市 场 。Softie 的 特征 如 下 : 

A. 毛 的 长 度 : 8 英寸 9 或 更 长 

B. 毛 的 特征 : 特别 柔软 (或 较 软 ) 

白 底 上 有 棕色 ， 
白 扑 - 
C. 尾巴 特征 : 短 (4~ 6 英寸 ) 
尾 端 挺 直 向 上 
D. 重量 : 特别 重 : 重量 等 于 或 大 于 90 公 斤 
E. 脚 的 特征 : 爪 印 面积 超过 9 平方 英寸 8 
趾 间 全 有 跨 

F. 性 情 : 特别 温和 

当 对 所 有 的 狗 进 行 观察 时 ， 这 些 特征 中 的 每 一 个 均 有 一 个 范围 : 

A. 可 用 8 位 二 进 制 数 表 示 ， 其 中 00000000 相 应 于 无 毛 狗 。11111111 相 应 于 毛 的 长 度 为 
10.2 英 寸 ， 而 11001000 对 应 于 8 英寸 。 

B. 可 用 6 位 来 表示 和 柔软 性 (其 中 000000 相 应 于 最 柔软 级 别 ) ，000111 表 示 非 常 软 ， 而 
111111 表 示 最 硬 ; 用 3 位 表示 底 毛 的 亮度 ，000 表 示 亮 ，111 表 示 上 暗淡 ; 用 3 位 表示 底 
毛 颜 色 ，000 为 白色 ，001 为 棕色 ， 而 所 有 其 他 颜色 由 其 余 六 种 组 合 表示 ; 用 3 位 表 
示 前 景 亮度 (000 为 亮 ) ; 用 3 位 表示 前 景 颜色 (000 为 白 ，001 为 棕 ，010 为 红 ， 
011 为 黄 ，111 为 黑 ， 其 余 的 位 模式 组 合 表示 其 他 颜色 ) ; 用 1 位 表示 爪 的 颜色 ，0 
对 应 于 白色 ， 而 1 为 其 他 任意 颜色 ;用 1 位 表示 尾巴 颜色 ，0 对 应 于 任何 其 他 颜色 ， 
而 1 表示 黑色 。 

C. 可 用 10 位 表示 ， 其 中 8 位 表示 尾巴 长 度 (00000000 相 应 于 无 尾巴 ， 而 11111111 相 应 
于 尾巴 长 为 25.5 英 寸 或 更 长 )， 其 余 2 位 用 来 说 明 尾巴 的 外 观 ，00 表 示 尾 端 向 上 ，01 
对 应 于 尾 端 水 平 ，10 对 应 于 尾 端 向 下 ， 而 11 对 应 于 最 不 受 欢迎 的 卷 尾 外 貌 。 

D. 可 用 10 位 表示 ， 其 中 前 面 7 位 对 应 于 以 公斤 表示 的 重量 ， 而 后 3 位 对 应 于 1/8 公 斤 


的 增 量 。 因 此 ， 若 重量 特征 位 为 0000101011， 则 重量 为 5 公斤。 

E. 可 用 10 位 表示 ， 其 中 7 位 表示 爪 印 面积 ， 其 余 3 位 表示 距 的 比例 。 在 本 例 中 ， 
0000000 对 应 于 爪 印 面积 为 0.5 平 方 英寸 ，1111111 对 应 于 爪 印 面积 为 13.2 平 方 英寸 ， 
而 0100011 对 应 于 不 印 面 积 为 4.0 平 方 英寸 。 在 后 3 位 中 ，000 表 示 1/8 跳 ， 而 111 对 应 
于 全 距 。 


日 1 英寸 = 0.02Sm 
全 “1 平方 英寸 = 1.639 x 10-5ms 


pS 
2 
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F. 可 用 6 位 表示 ， 其 中 000000 表 示 最 温和 的 脾气 京 性 ，000100 为 非常 温和 性 格 ， 而 
111111 则 表示 “ 比 垃圾 狗 的 脾气 还 坏 ”， 即 极端 不 温和 的 脾气 ! 

这 样 ， 总 共 需 64 位 来 表示 该 种 狗 中 的 每 一 条 狗 。 一 条 狗 可 能 用 以 下 的 64 位 来 表示 : 

11001000 001011 000000 111001 01 1000000011 001101100 0100011 011 000100 


其 特征 为 : 
11001000 毛 长 8 英寸 
001011 毛 比 所 期 望 的 稍 硬 
000000 底 毛 颜色 为 亮 白 
111000 前 景 颜色 为 暗 棕 
01 白 爪 ; 黑 尾 
10000000 ， 尾 长 12.8 英 寸 ， 卷 尾 
00110110w 重 13.5 公 斤 
0100011 ”不 印 面积 4 平方 英寸 
011 50% 跳 
000100 非常 温和 的 脾气 


简 言 之 ， 该 狗 有 某 些 令 人 满意 的 特性 〈 毛 相当 好 ， 爪 的 大 小 也 不 错 ， 此 外 脾气 也 好 ) 
以 及 某 些 不 尽 如 人 意 的 特性 〈 毛 的 硬度 稍 超过 标准 ， 尾 巴 是 卷曲 的 ， 与 标准 相 比 该 狗 
相当 小 ， 此 外 该 狗 的 水 性 不 如 水 狗 (water dog )， 因 为 它 不 是 完全 连 跳 的 )。 

该 企业 家 焦急 地 对 读 项 目 进行 两 面 下 注 以 防 损 失 ， 为 此 他 雇用 你 和 另 一 个 你 的 竞 
争 者 一 起 来 开发 Softies。 你 的 竞争 对 手 用 一 个 大 型 的 综合 养 狗 场 ， 计 划 喂 养 500 条 
狗 ; 而 你 则 选择 5 个 独立 的 养 狗 场 ， 每 个 喂养 100 条 狗 。 你 和 你 的 竞争 者 都 计划 去 访问 
动物 掩蔽 所 并 带 走 所 找到 的 500 条 未 切除 卵 景 /已 阁 荐 的 狗 ( 即 你 们 将 以 具有 随机 ” 
特性 的 种 群 开始 )。 

你 和 你 的 竞争 对 手 在 培育 连续 儿 代 狗 的 同时 ， 将 始终 保持 你 们 养 狗 场 中 的 种 群 大 
小 是 固定 的 。 你 们 两 个 均 计划 使 每 个 养 狗 场 中 保留 当前 一 代 中 符合 培育 Softie 品 种 标 
准 的 它 的 两 个 双亲 。 此 外 ， 由 于 一 对 双亲 可 能 一 胎生 下 多 个 狗 害 (相应 于 进行 多 次 
“切割 ”和 交叉 )， 你 们 两 个 均 计 划 把 那些 最 不 符合 Softie 标 准 的 狗 岩 送 掉 〈 送 给 你 们 
的 朋友 )， 使 你 们 的 局 部 种 群 大 小 保持 固定 。 

你 和 你 的 竞争 对 手 所 使 用 的 两 种 方法 之 间 的 主要 不 同 是 , 他 有 一 个 单一 的 大 种 群 ， 
而 你 有 5 个 独立 的 养 狗 场 的 “承包 者 ”， 且 每 一 个 均 运作 在 孤立 的 子 种 群 上 。 他 将 简单 
地 生成 上代 的 狗 叫 ; 而 你 的 承包 者 们 的 每 一 个 将 孤立 地 生成 5 代 狗 忠 ， 然 后 他 们 只 将 最 
合适 的 两 条 狗 送 给 他 们 的 邻居 〈4 送 给 B 和 尼 各 一 条 ， 而 8 送 给 4 和 C 各 一 条 ， 等 等 ) ， 
如 同 孤 岛 模 型 那样 。 

1) 按照 你 的 竞争 对 手 的 方法 ， 编 写 一 个 单 处 理 机 的 遗传 算法 的 求解 。 选 几 个 随机 生 
成 的 初始 种 群 对 其 加 以 运行 ， 并 计算 在 种 群 中 的 10% ( 即 50 条 狗 ) 满足 Softies 标 
准 之 前 所 需 的 平均 代数 。 

2) 按照 你 的 方法 编写 一 个 多 处 理 机 的 遗传 算法 。 如 同 问 题 1 一 样 ， 选 几 个 随机 生成 的 
初始 种 群 对 其 加 以 运行 ， 并 计算 在 你 的 5 个 养 狗 场 中 ， 当 总 共有 50 条 狗 满足 Softies 
标准 时 所 需 的 平均 代数 。 
提示 : 你 将 需要 构造 一 个 能 体现 所 有 这 些 特性 的 评估 函数 ， 使 得 当 具 有 符合 
Softies “标准 ”特性 的 狗 比 起 那些 不 符合 的 来 ， 将 显示 出 有 更 大 的 “适合 性 ”。 
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13-12 新 建立 国家 Nella 的 1535 位 参议 员 和 众 议 员 正 在 考虑 从 一 家 大 公司 接收 “ 软 钱 ”( 间接 
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给 予 竞选 人 的 竞选 费用 ) 作为 竞选 活动 的 财政 捐助 。 捐 款 是 以 称 为 Kerf 的 当地 货币 作 
为 单位 的 , 它 来 自 于 在 继续 销售 其 产品 的 问题 上 正面 临 某 些 管理 上 麻烦 的 一 家 大 公司 。 
可 以 肯定 的 是 ， 每 位 参议 员 和 众 议 员 对 此 捐款 有 自己 的 评判 标准 。 例 如 ， 有 的 议员 认 
为 应 将 来 自 该 公司 的 所 有 捐款 如 数 退 回 〈 肯 定 这 是 “少数 人 观点 ") ! 另外 一 些 议员 
觉得 按照 他 正在 进行 的 一 流 工作 应 该 体面 地 接受 所 有 捐款 。 再 有 一 些 议员 可 能 会 有 不 
同 的 接受 上 限 ， 超 过 此 上 限 的 捐款 就 将 拒绝 接受 ， 因 为 他 们 担心 如 果 无 上 限 地 接受 捐 
款 会 在 涉及 该 公司 政策 的 投票 中 出 现 不 公正 的 偏 祖 。 

尽管 “潜在 获 益 ”对 公司 来 讲 是 一 个 值得 争论 的 事实 ， 但 公司 相信 某 些 参议 员 或 
众 议 员 比 起 其 他 议员 来 更 易 受 影响 ， 所 以 公司 认为 通过 捐款 尽 可 能 地 “支持 ”这 些 议 
员 是 非常 重要 的 。 不 幸 的 是 ， 在 与 管理 代理 人 进行 争斗 后 ， 公 司 已 没有 足够 的 余 钱 来 
全 力 “ 支 持 ” 所 有 的 国会 代表 可 接受 的 捐款 的 上 限 值 。 为 此 ， 公 司 必须 对 捐款 的 分 配 
预算 做 更 进一步 的 选择 。 

公司 的 政治 顾问 和 律师 们 已 设立 了 他 们 很 自信 的 一 个 评估 函数 ， 该 函数 掺 述 了 每 
个 国会 成 员 的 作为 竞选 活动 Kerf 的 支持 兴趣 。SI ( C;，K; ) 函数 不 但 考虑 了 各 人 的 捐 


款 接受 上 限 〈 国 值 ) ， 而 且 还 对 国会 议员 由 于 接受 捐款 的 影响 在 整个 立法 过 程 中 所 表 ， 


现 出 来 的 对 “公司 的 友情 ”的 期 望 进行 加 权 。 到 此 为 止 ， 公 司 所 缺少 的 是 一 个 针对 SI 


(Ci; ，Ki ) 函数 在 个 人 间 进 行 Kerf 特 定 分 配 的 机 制 。 作 为 一 名 遗传 算法 应 用 的 著名 专 


家 ， 你 被 该 公司 雇佣 来 找 出 对 整个 国会 成 员 进行 Kerf 分 配 的 优化 方案 ， 当 然 该 方案 必 
须 受 公司 预算 额度 的 约束 。 

在 略 作 考虑 后 ， 你 设计 了 一 个 串 行 的 遗传 算法 。 就 遗传 算法 角度 而 言 ， 每 个 个 体 
是 一 组 1500Kerf 的 金额 ， 它 们 的 总 和 即 是 公司 在 这 方面 的 预算 。 你 随机 地 生成 (但 要 
遵从 预算 额度 ) Kerf 的 金额 分 配给 1535 位 国会 议员 的 每 一 位 ， 从 而 产生 一 个 遗传 算法 
的 个 体 ， 对 此 过 程 重复 以 产生 1000 个 竞选 活动 捐款 的 分 配方 案 : 1000 个 遗传 算法 的 个 
体 。 幸 运 的 是 ， 你 很 快 就 意识 到 为 了 及 时 地 找到 在 国会 成 员 中 优化 分 配 Kerf 的 方案 以 
便 在 公司 当天 稍 后 时 间 的 报告 中 提出 该 方案 需要 将 方案 的 计算 加 速 10 倍 。 

设计 一 个 并 行 遗传 算法 方法 ， 该 方法 将 使 用 联网 工作 站 中 那些 由 于 不 利 的 管理 活 
动 而 导致 裁减 雇员 的 办 公 旧 上 闲置 的 机 器 。 
在 国际 银行 界 最 近 几 次 的 联合 之 后 ， 其 中 最 大 银行 之 一 一 -世界 银行 遇 到 了 问题 。 它 
每 天 要 处 理 大 约 350 亿 次 信用 卡 交 易 ， 而 且 发 现 尽 管 它 的 中 央 计 算 机 仍 有 能 力 记录 交 
易 和 处 理 每 月 的 结算 单 ， 但 已 没有 多 余 的 CPU 时 间 来 分 析 顾 客 消 费 的 格局 。 世 界 银 行 
的 董事 会 注意 到 你 有 使 用 联网 工作 站 来 解决 银行 所 面临 问题 的 能 力 。 

特别 是 ， 世 界 银 行 已 有 包括 去 年 信用 卡 购 货 历史 的 超过 8000T 字 节 ， 即 800 万 吉 字 
节 的 在 线 存储 纪录 。 这 些 数据 是 原始 的 购 货 点 信息 ， 没 有 进行 过 任何 分 类 。 每 一 项 中 
包括 有 ID 号 、 顾 客 账号 、 日 期 和 总 额 。 世 界 银 行 的 国际 市 场 部 提议 对 这 些 历史 数据 进 
行 挖掘 并 以 各 种 方法 将 它们 加 以 组 织 以 使 世界 银行 能 获得 更 多 的 收益 。 

作为 你 的 全 部 工作 ， 世 界 银行 要 求 你 设计 一 种 分 析 数 据 的 并 行 计 算 方 法 。 你 要 生 
成 一 张 邮寄 表 ， 该 表 中 要 列 出 所 有 在 去 年 内 在 任何 家 庭 产 品 中 心 联盟 处 累计 消费 总 额 
超过 500 美 元 的 顾客 名 单 。 世 界 银行 市 场 部 相信 ， 它 可 以 将 此 邮寄 清单 《所 有 “好 的 ” 
家 庭 产 品 中 心 顾客 ) 的 拷贝 出 售 给 这 些 商 店 中 的 每 一 家 ， 而 商店 然后 会 使 用 该 清单 向 
那些 顾客 邮寄 广告 单 。 在 不 停止 对 所 涉及 的 隐私 进行 分 析 的 同时 ， 你 立即 着 手 根据 家 


二 
~ 





13-14 
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庭 产品 中 心 所 标识 的 业务 清单 对 顾客 的 购 货 进 行 累加 统计 的 工作 。 

草拟 出 一 个 使 用 几 千 台 亲 置 工 作 站 (由 于 最 近 的 合并 而 导致 工作 人 员 裁 减 而 使 这 
一 情况 成 为 可 能 ) 完成 这 一 统计 的 算法 。 具 体 地 讲 ， 即 要 确定 一 个 典型 的 联网 工作 站 
将 要 做 什么 ， 如 何 使 工作 站 协调 工作 以 及 如 何 将 结果 融合 在 一 起 以 生成 所 希望 的 邮寄 
表 。 你 应 记得 的 是 ， 每 个 工作 站 只 有 非常 有 限 的 本 地 存储 器 容量 : RAM 为 512MB， 
硬盘 为 48GB。 任 何 企图 需要 超过 任何 单 台 工作 站 所 具有 存储 容量 的 方法 将 指定 会 落 
得 失败 下 场 ! 
将 在 一 个 容积 中 搜索 具有 最 大 评估 函数 值 点 的 遗传 算法 的 例子 转换 成 腿 山 问题 ， 实 现 
该 解法 并 与 一 个 等 价 的 精确 遗传 算法 求解 方法 所 需 时 间 进 行 比 较 。 
1) 作为 顺序 方法 比较 。 
2) 作为 并 行 方法 比较 。 
将 求解 银行 应 用 的 爬山 方法 转换 成 遗传 算 靶 问题 ， 实 现 该 解法 并 在 所 需 时 间 上 与 一 个 
等 价 的 精确 仆 山 求解 方法 相 比 较 。 
1) 作为 顺序 方法 比较 。 
2) 作为 并 行 方法 比较 。 





附录 A 基本 的 MPI 例 程 


下 面 是 MPI 例 程 的 一 个 集合 ， 有 了 这 些 例 程 足以 理解 本 书 中 的 大 多 数 的 程序 。MPI 中 提供 
了 大 量 的 例 程 。 这 里 描述 的 例 程 被 分 为 初等 (用 来 建立 环境 和 相关 事宜 )、 基 本 点 对 点 消息 传 
递 和 集合 消息 传递 三 类 。 有 关 例 程 的 全 集 和 附加 细节 可 在 [Gropp, Lusk, and Skjellum，1999]、 
[Gropp, Lusk, and Thakur，1999] 和 [Gropp, et al.，1998] 中 找到 。 


A.1 初等 例 程 





int MPI_Init (int *argc, char **argv[]) 





动作 : 初始 化 MPI 的 环境 。 
参数 : *argc 来 自 main( ) 的 参量 
**argv[ ] 来 自 main( ) 的 参量 





int MPI_Finalize(void) 





动作 : 终止 MPI 的 执行 环境 。 
参数 : 无 。 


int MPI_Comm rank (MPI_Conm comm, int *rank) 








动作 : 确定 进程 在 通信 子 中 的 序号 。 
参数 : comm 通信 子 
*rank 序号 (返回 的 ) 





int MPI_Comm Size {MPI_Conm corm, int *size) 





动作 : 确定 与 通信 子 关联 的 组 的 大 小 。 
参数 : comm 通信 子 
*size 组 的 大 小 (返回 的 ) 


double MPI_Wtime {void) 








动作 : 以 秒 为 单位 返回 从 过 去 某 点 开始 的 执行 时 间 。 
参数 : 无 。 
A.2 点 对 点 消息 传递 


MPI 为 MPI_Datatype 定 义 了 各 种 数据 类 型 ， 大 部 分 与 C 的 数据 类 型 相对 应 ， 包 括 
MPI_CHAR signed char 

MPI_INT signed int 

MPI_FLOAT float 
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int MPI_Send (void *buf, int count，MPI_Datatype datatype, int dest, int tag, 
MPI_Comm comm) 





动作 : 发 送 消 息 (阻塞 )。 


参数 : *buf 发 送 缓冲 区 
count 缓冲 区 内 的 项 数 
datatype 项 的 数据 类 型 
dest 目的 进程 序号 
tag 消息 标志 
comm 通信 子 








int MPI_ Recv (void *buf, int count, MPI Datatype datatype, int Source， 
int tag, MPI_ Comm comm, MPI_Status *status) 








动作 : 接收 消息 (阻塞 )。 


参数 : *buf 接收 缓冲 区 (已 装载 ) 
count 缓冲 区 内 最 大 项 数 
datatype 项 的 数据 类 型 
source 源 进程 序号 
tag 消息 标志 
comm 通信 子 
*status 状态 (返回 的 ) 


在 接收 例 程 中 ，tag 内 的 MPI_ANY_TAG 和 source 内 的 MPI _ANY SOURCE 为 通配符 。 
返回 的 状态 是 一 个 至 少 有 三 个 成 员 的 结构 : 

status-> MPI_SOURCE 消 息 源 的 序号 

status-> MPI TAG 消息 源 的 标志 

status-> MPI ERROR 潜在 的 错误 





int MPI_Isend (void *buf, int count, MPI_Datatype datatype, int dest, int tag, 
MPI_Corm comm, MPI Request *request) 





动作 : 启动 非 阻塞 发 送 。 





参数 : *buf 发 送 缓冲 区 
count 缓冲 区 内 元 素 个 数 
datatype 元 素 的 数据 类 型 
dest 目的 进程 序号 
tag 消息 标志 
comm 通信 子 
*request 请 求 句柄 (返回 的 ) 
相关 的 例 程 : 
MPI_Ibsend() 启动 缓冲 的 非 阻塞 发 送 
MPI_Irsend() 启动 就 绪 的 非 阻 塞 发 送 
MPI_Issend() ”启动 同步 的 非 阻塞 发 送 
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int MPI_Irecv(void *buf, int count，MPI_Datatype datatype, int source, 
int tag, MPI_Cormm comm, MPI _ Request *request) 


动作 : 启动 非 阻 塞 接收 。 

参数 : *buf 接收 缓冲 区 地 址 (已 装载 ) 
count 缓冲 区 内 元 素 个 数 
datatype 元 素 的 数据 类 型 
source ” 源 进 程序 号 
tag 消息 标志 
comm 通信 子 
*request 请 求 句柄 (返回 ) 








int MPI_Wait (MPI_Request *request, MPI_Status *status) 





动作 : 等 待 MPI 发 送 或 接收 结束 ， 然 后 返回 。 
参数 : 
*request 请 求 句柄 
*status 状态 (如 果 等 待 ， 则 同 MPI_recv( ) 的 返回 状态 ) 
相关 的 例 程 : 
MPI_Waitall() 等 待 所 有 进程 结束 (附加 参数 ) 
MPI_Waitany() 等 待 任 一 进程 结束 (附加 参数 ) 
MPI_Waitsome( ) 等 待 某 些 进程 结束 〈 附 加 参数 ) 


int MPI_Test (MPT_ Request *request, int *flag，MPI_Status *status) 








动作 : 测试 非 阻 塞 操作 是 否 结束 。 

参数 : *request 请 求 句柄 
*flag 如 果 操 作 结 束 便 为 真 ( 返 回 的 ) 
*status 状态 (返回 的 ) 





int MPI_Probe (int source, int tag, MPI_Comm comm, MPI_Status *status) 





动作 : 对 消息 进行 阻塞 测试 (不 接收 消息 )。 
参数 : source ” 源 进 程序 号 

tag 消息 标志 

comm 通信 子 

*Status 状态 (返回 的 ) 


int MPI_IProbe (int source, int tag, MPI_Comm comm, int *flag, MPI_Comm 
*status) : 











动作 : 对 消息 进行 非 阻 塞 测 试 ( 不 接收 消息 )。 
参数 : source ” 源 进 程序 号 

tag 消息 标志 

comm 通信 子 
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*flag 如 果 有 消息 便 为 真 〈 返 回 的 ) 
*status ”状态 (返回 的 ) 


A.3 组 例 程 





int MPI_ Barrier (MPI_Comm comm) 





动作 : 阻塞 进程 直至 所 有 进程 已 调用 该 例 程 。 








参数 : comm 通信 子 
int MPI_Bcast (void *buf, int count, MPI_Datatype datatype, int root, MPI_Comm 
Comm) 
动作 : 从 根 进程 向 comm 中 的 所 有 进程 和 自身 广播 消息 。 
参数 : *buf 发 送 缓冲 区 (已 装载 ) 
count 缓冲 区 内 的 项 数 
datatype ”缓冲 区 的 数据 类 型 
root 根 进程 的 序号 





int MPI_Alltoall (void *sendbuf, int sendcount, MPI_Datatype sendtype, void 
*recvbuf, int recvcount, MPI_Datatype recvtype, MPI_Comm comm) 





动作 : 从 所 有 进程 向 所 有 进程 发 送 消 息 。 

参数 : *+sendbuf 发 送 缓冲 区 
sendcount ”发送 缓冲 区 内 元 素数 
sendtype ”发 送 元 素 的 数据 类 型 
*recvbuf 接收 缓冲 区 (已 装载 ) 
recvcount ”每 次 接收 的 元 素数 
recvtype 接收 元 素 的 数据 类 型 
comm 通信 子 

相关 的 例 程 : 

MPI_Alltoallv() 带 偏 移 地 向 所 有 进程 发 送 数据 





int MPI_Gather (void *sendbuf, int sendcount, MPI_Datatype sendtype, void 
*recvbhuf, int recvcount, MPI_ Datatype recvtype, int root, MPI_Comm comm) 





动作 : 集中 进程 组 的 各 个 值 。 

参数 : *sendbuf ”发 送 缓冲 区 
sendcount 发送 缓冲 区 内 元 素数 
sendtype ”发 送 元 素 的 数据 类 型 
*recvbuf 接收 缓冲 区 (已 装载 ) 
recvcount ”每 次 接收 的 元 素数 
recvtype 接收 元 素 的 数据 类 型 
root 接收 进程 的 序号 
comm 通信 子 

相关 的 例 程 : 
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MPI_Allgather() 集中 值 并 向 所 有 进程 分 发 
MPI Gatherv() 集中 值 到 指定 单元 中 
MPI_Allgatherv() 集中 值 到 指定 单元 中 并 向 所 有 进程 分 发 


MPI_Gatherv() 和 MPI_Allgatherv( ) 在 recvcount 后 需 附 加 一 个 参数 :*displs 一 一 数 
组 偏 移 





int MPI_Scatter (void *sendbuf, int sendcount, MPI_Datatype sendtype, 
void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) 





动作 : 从 根 进程 缓冲 区 中 分 散 部 分 值 到 进程 组 。 

参数 : *sendbuf 发 送 缓冲 区 
sendcount 每 个 进程 发 送 的 元 素数 
sendtype 元 素 的 数据 类 型 
*recvbuf 接收 缓冲 区 (已 装载 ) 
recvcount 接收 缓冲 区 的 元 素数 
recvtype 接收 元 素 的 类 型 


root 根 进 程 的 序号 
comm 通信 子 
相关 的 例 程 : 
MPI_Scatterv() 分 散 根 进程 缓冲 区 中 的 指定 部 分 值 到 进程 组 。 


MPI_Reduce_scatter( ) 归 约 值 并 分 散 结果 。 





int MPI_Reduce(void *sendbuf, void *recvbhuf, int count, MPI Datatype 
datatype, MPI_Op op, int root, MPI_Comm comm) 





动作 : 将 所 有 进程 值 归 约 为 一 个 值 。 
参数 : *sendbuf 发 送 缓冲 区 地 址 
*recvbuf 接收 缓冲 区 地 址 


count 发 送 缓冲 区 内 元 素数 
datatype 发 送 元 素 的 数据 类 型 
op 归 约 操作 。 其 中 包括 : 
MPI_MRX 最 大 
MPI_MIN 最 小 
MPI_SUM 求 和 
MPI_PROD 求 积 
+ root 结果 的 根 进程 的 序号 
comm 通信 子 
相关 的 例 程 : 
MPI_Allreduce() 归 约 成 单个 值 并 返回 给 所 有 进程 。 
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附录 B 基本 的 Pthread 例 程 


下 面 是 Pthread 例 程 的 一 个 集合 ， 有 了 这 些 例 程 足以 理解 本 书 中 的 大 多 数 的 程序 。 有 关 例 
程 的 附加 细节 可 在 [Butenhof ，1997]、[Kleiman， Shah, and Smaalders ，1996]、[Nichols， 
Buttlar, and Farrell，1996]， 以 及 [Prasad ，1997] 中 找到 。 


B.1 线程 管理 
头 文件 <pthread.h> 中 含有 类 型 定义 (Pthread 上 等 ) 和 国 数 原型 。 





int pthread create(pthread t *thread, const pthread attr t *attr, void 
*(*routine) (void *), void *arg) 





动作 : 创建 线程 。 

参数 : thread 线程 标识 符 ( 返 回 的 ) 
attr 线程 属性 (NULL 为 默认 属性 ) 
routine 新 线程 例 程 


void pthread exit (void *value) 


动作 : 终止 调用 线程 。 
参数 : value 将 值 返回 给 已 启动 pthread_join() 的 线程 


int pthread join(pthread t thread, void **value) 




















动作 : 使 线程 等 待 指定 线程 的 终止 。 
参数 : thread 线程 标识 符 (返回 的 ) 
value 新 线程 例 程 


int Pthreaqd_detach(Pthread t thread) 








动作 : 释放 一 个 线程 。 
参数 : thread 欲 释放 的 线程 


int pthread attr init(pthread attr_t *attr) 











动作 : 初始 化 一 个 线程 的 属性 对 象 为 默认 值 。 
参数 : attr 线程 属性 对 象 


int pthread attrsetdetachedstate (pthread attr_t *attr, int state) 








动作 : 说 明 是 否 将 释放 一 个 以 attr 创 建 的 线程 。 
参数 : attr 线程 属性 
state 未 释放 -PTHREAD _CREATE_JOINABLE 
已 释放 -PTHREAD_CREATE_DETACHED 
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int pthread attr_ destroy {pthread attr 上 *attr) 


动作 : 取消 一 个 线程 的 属性 对 象 。 
参数 attr 线程 属性 对 象 


pthread t pthread self (void) 











动作 : 返回 调用 线程 的 ID。 
参数 : 无 


int pthread equal (pthread t threadl, pthread t thread2) 








动作 : 比较 两 个 线程 threadl 和 thread2 的 ID， 如 果 相 等 返回 零 ， 否 则 返回 非 零 。 


参数 : threadl 线程 
thread2 线程 





int pthread once (pthread once 上 *once ctr, void (*once rtn) void) 





动作 : 如 果 指 定 的 线程 在 以 前 未 被 调用 过 ， 则 执行 此 例 程 。 它 可 保证 该 例 程 只 被 调用 一 
次 。 这 对 初始 化 很 有 用 。 例 如 ， 互 斥 锁 应 只 被 初始 化 一 次 。 
参数 : once_ctr 在 一 个 全 局 变量 被 初始 化 成 PTHREAD_ONCE_INIT (例如 ，static 
pthread _ once t onceé ctr =PTHREAD ONCE_INIT; ) 以 前 ， 用 该 变量 来 
判断 例 程 once_routine 是 否 已 被 调用 过 
once_rtn 例 程 只 执行 一 次 


B.2 线程 同步 
1. 互 斥 锁 ( mutex lock) 


-int pthread mutex. init (pthread mutex_t *mtex, 
const pthread nutexattr 七 *xattr) 


动作 : 用 指定 的 属性 初始 化 互 斥 锁 。 
参数 : mutex 互 斥 锁 
attr 属性 一 一 NULL 时 为 默认 值 


int Pthread_ Imutex_destroy (pthread mutex_t *mutex) 

















动作 : 撤销 一 个 互 斥 锁 。 
参数 : mutex 互 斥 锁 


int pthread mutex lock{pthread mutex 七 *rmmutex) 
动作 : 对 未 加 锁 的 互 斥 锁 加 锁 (并 成 为 互 斥 锁 的 拥有 者 )。 如 果 已 加 锁 ， 则 阻塞 ， 直 至 拥 


有 互 斥 锁 的 线程 释放 它 为 止 。 
参数 : mutex 互 斥 锁 

















int pthread_mutex_unlock (pthread mtex_t *mtex) 
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动作 : 对 互 斥 锁 解 锁 。( 如 果 有 线程 正 等 待 该 互 斥 锁 ， 就 将 它 唤 醒 。 若 有 多 个 线程 等 待 ， 
则 按 线程 的 优先 级 加 以 选择 和 调度 。 
参数 : mutex 互 斥 锁 


int phread mutex_ trylock{pthread mutex t *mutex) 


动作 : 对 未 加 锁 的 互 斥 锁 加 镇 (并 成 为 互 斥 锁 的 拥有 者 )。 如 果 已 加 锁 ， 便 立即 以 EBUSY 








参数 : mutex 互 斥 锁 





int pthread congd_ init (Pthread_con 了 *cond, const pthread condattr_t *attr) 


动作 : 以 指定 的 属性 创建 一 个 条 件 变 量 。 
参数 : cond 条 件 变量 
attr 属性 一 -NULL 时 为 默认 











int pthread cond_destroy {pthread cond t *cond) 


动作 : 撤销 一 个 条 件 变量 。 
参数 : cond 条 件 变 量 


int pthread cond wait (pthread cond t *cond, pthread mutex t *mutex) 


动作 : 等 待 一 个 条 件 变 量 ， 由 信号 或 广播 唤醒 。 在 等 待 前 互 斥 锁 已 被 解锁 ， 等 待 后 将 再 
加 锁 。( 在 调用 前 互 斥 锁 应 由 线程 加 锁 。) 

参数 : cond 条 件 变量 
mutex 互 斥 锁 


int pthread cond timedwait (pthread cond t *cond, pthread mutex 上 *mutex, 
const struct timespec *abstime) 

















动作 : 在 规定 时 间 内 等 待 一 个 条 件 变量 。 与 pthread_cond_wait () 类 似 ， 不 同 之 处 
仅 在 于 如 果 系 统 时 间 等 于 或 大 于 指定 时 间 时 ， 例 程 将 返回 已 加 锁 的 互 斥 锁 。 
参数 : cond 条 件 变 量 
mutex 互 斥 锁 
abstime 条 件 未 出 现时 ， 在 返回 前 的 时 间 。 
将 时 间 设 置 为 5 黎 : 
abstime.tv.sec = time(NULL) + 5; 
abstime.tv.nsec = 0; 








int pthread cond signal (pthread cond_t *cond) 








动作 : 解锁 正 等 待 一 个 条 件 变量 的 线程 。 若 有 多 个 线程 等 待 ， 则 按 线 程 的 优先 级 加 以 选 
择 和 调度 。 如 果 没 有 线程 等 待 ， 将 不 会 为 以 后 的 线程 保留 此 信号 。 
参数 : cond 条 件 变量 
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Pthread_conQ_broadcast (pthread_cond t *cond) 





动作 : 与 pthread_cond_signal() 类 似 ， 不 同 之 处 仅 在 于 将 唤醒 所 有 等 待 条 件 变量 
的 线程 
参数 : cond 条 件 变量 


虽然 “唤醒 ” 例 程 的 动作 可 能 只 唤醒 一 个 线程 ， 但 在 某 些 多 处 理 机 系统 中 可 能 唤醒 多 个 
线程 ， 因 此 在 编码 时 应 考虑 到 这 一 点 。 
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以 下 是 有 关 C/C++ 命 令 、 库 函数 和 环境 变量 的 集合 ， 它 们 共同 构成 了 OpenMP。 更 多 的 细 
节 可 在 {Chandra et al.，2001] 以 及 《OpenMp C 及 C++ 应 用 程序 接口 2002 年 3 月 的 版 本 2 》 的 
文档 中 找到 (OpenMP 体 系 结构 评论 委员 会 ，2002 ) 。 这 两 个 参考 文献 之 间 有 一 些 差别 ， 部 分 
原因 是 因为 OpenMP 从 版 本 1 到 版 本 2 已 作 了 一 些 修 改 。 本 附录 中 采用 《 OpenMP C 及 C++ 应 
用 程序 接口 2002 年 3 月 的 版 本 2 》 作 为 权威 的 文档 。 


C.1 概要 


OpenMP 编 译 器 命令 以 #pragma 开 始 ， 在 其 后 面 是 omp， 名 字 和 可 选 的 子 句 ， 并 用 新 行 结 
东 。 某 些 子 句 可 出 现在 不 同 的 命令 中 ,但 对 它们 需要 加 以 分 别 的 定义 。 某 些 命令 将 作用 于 整 
个 结构 块 《 语 句 或 语句 组 )。 所 谓 构造 是 由 编译 器 命令 及 跟 在 其 后 的 结构 块 所 组 成 。 

记号 

[clause] ... 从 后 面 列 出 的 子 名 中 选择 的 一 个 或 多 个 可 选 的 子 句 。 子 名 可 

以 任何 次 序 排 列 。 在 OpenMP 版 本 2 中 ,它们 之 间 用 逗号 分 开 。 
子 句 中 列 出 的 项 以 逗号 分 开 。 
structured _ block 单 语句 或 复合 语句 (只 有 一 个 人 口 和 一 个 出 口 )。 


C.2 PARALLEL REGION (并 行 区域 ) 





#pragma omp parallel [clause]l ... 
structured block 





动作 : 创建 多 个 线程 ， 每 个 执行 指定 的 结构 块 structured_block。 
子 句 : if (scalar_expression) 

private (variable_list) 

firstprivate (variable_ list') 

default (shared or none) 

shared (variable 1ist) 

copyin(variable_ list) 

reduction {operator : variable list) 


num threads (integer expression) 


C.3 WORK-SHARING (工作 共享 ) 


工作 共享 构造 不 创建 线程 ， 它 使 用 现 有 的 线程 。 通 常 paralle1 构 造 出 现在 工作 共享 构 
造 之 前 。 在 这 类 构造 的 结束 处 没有 显 式 的 障 栅 同 步 。 





#pragma omp for [fclause]l ... 
for_loop 
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动作 : 


子 句 : 
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将 使 for 循环 (for_loop) 的 各 次 迭代 在 组 内 的 现 有 线程 间 分 配 。for 循 环 必须 

是 规范 的 形式 : 

for(initial expression;boolean expression;increment expres 

-sion) 

基 中 每 个 表达 式 必须 是 一 个 简单 的 形式 ， 如 在 《OpenMP C 及 C++ 应 用 程序 接口 

2002 年 3 月 的 版 本 2 》( OpenMP 体 系 结构 评论 委员 会 ，2002) 所 摘 述 的 那样 形 如 。 
for (i=0; i<10;i++) 

那样 的 循环 将 被 接受 。 但 其 中 的 i 在 循环 中 不 允许 修改 。 

private (variable_1iist) 

firstprivate (variable_list) 


lastprivate (variable_list) 
reduction(operator : variable list) 


ordered 
schedule (kind, chunk size) 


nowait 


可 将 for 命 令 与 parallel 命 令 在 一 行 中 组 合 使 用 ， 变 成 parallel for 命 令 和 parallel 
sections 命 令 ， 除 了 nowait 外 ，parallel 和 for 中 的 所 有 子 句 均 可 在 parallel for 中 使 用 。 





#pragma omp sections {clause] ... 
{ 
#pragma omp section 
structured block 
#pragma omp section 
structured block 


} 





动作 : 
子 句 : 


将 使 section 构 造 在 组 内 的 现 有 线程 间 共享 。 每 个 section 构 造 执 行 一 次 。 
仅 出 现在 sections 构 造 中 ， 可 以 是 : 


private (variable list) 

firstprivate (variable_list)} 
lastprivate {variable_ list) 
reduction (operator : variable list) 
nowait 


可 将 sections 命 令 与 parallel 命 令 在 一 行 中 组 合 使 用 ， 变 成 Parallel for 命 令 和 parallel 
sections 命 令 , 除了 nowait 外 ，parallel 和 sections 中 的 所 有 子 句 均 可 在 
parallel sections 中 使 用 。 





#pragma omp single [clause] ... 
structured block 





动作 : 
子 句 : 


每 次 仅 由 组 内 的 一 个 线程 执行 结构 块 。 


private(variable list) 
firstprivate (variable_ list) 
copyprivate (variable list) 
nowait 
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C.4 命令 /构造 


一 般 而 言 ， 在 使 用 命令 前 要 先 建立 线程 组 ， 因 为 使 用 parallel 命 令 意味 着 需要 多 于 一 


个 的 线程 ， 除 非 男 有 说 明 。 








#pragma omp atomic 
expression statement 
动作 : 语句 expression_statement 由 线程 用 以 下 方式 执行 ， 使 得 由 本 语句 所 更 新 的 存 - 
储 单元 以 原子 方式 完成 ， 即 不 受 其 他 线程 的 干扰 。 语 句 必须 是 下 列 简单 形式 之 一 。 


x binary_op= expression 





”于 外: 无 子 多 


#pragma omp barrier 








动作 : 线程 将 等 待 直到 所 有 线程 都 到 达 障 栅 ， 此 后 所 有 线程 将 一 起 执行 障 栅 后 的 语句 。 
子 句 : 无 子 句 


#pragma omp critical name 





structured block 





动作 : 每 次 由 一 个 线程 执行 该 结构 块 。 线 程 将 等 待 直 至 无 其 他 线程 执行 该 结构 块 ， 此 后 将 
选择 等 待 线程 中 的 一 个 来 执行 此 结构 块 。OpenMP 中 没有 定义 此 选择 过 程 。 
子 旬 : 可 选 子 句 名 name 用 来 标识 临界 区 。 如 果 省 略 ， 则 将 被 映射 到 一 个 无 名 的 临界 区 





#pragma omp flush (variable list) 


动作 : 创建 一 个 同步 点 ， 在 该 点 允许 所 有 当前 对 变量 表 中 的 变量 进行 读 和 写 的 操作 完成 ， 
并 将 求 得 的 值 写 回 存储 器 。 在 线程 调用 刷新 命令 时 ， 表 中 所 有 变量 将 被 更 新 。 由 于 
使 用 寄存 器 在 本 地 保存 共享 变量 的 拷贝 ， 故 当 共 享 变 量 被 其 他 进程 改变 时 通常 需要 
执行 此 命令 。 应 注意 的 是 , 该 命令 不 会 自动 地 作用 到 所 有 正 访 问 这 些 变 量 的 线程 上 。 
按照 [Chandra et al.，2001] 每 个 线程 必须 分 别 调用 该 命令 ， 尽 管 OpenMP 体 系 结构 评 
论 委员 会 (2002) 关于 这 一 点 没有 明确 意见 。 如 果 省 略 变量 表 ， 则 在 线程 由 可 访问 
的 所 有 变量 将 被 更 新 。 如 第 8 章 所 述 ， 在 各 种 其 他 的 构造 中 该 命令 将 自动 出 现 。 

子 句 : 无 子 句 











#pragma omp master 
structured plock 


动作 : 仅 由 主线 程 执行 结构 块 。 在 该 构造 的 开始 或 结尾 无 障 柚 同 步 。 
子 句 : 无 子 名 


#pragma omp ordered 
structured block 
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动作 :此 命令 只 能 使 用 在 for 或 parallel for 的 构造 中 。 按 顺序 执行 循环 的 次 序 执行 
结构 块 。 一 般 ， 在 ordered 构 造 外 的 循环 体 的 其 他 部 分 仍 将 并 行 执行 ， 
子 名 : 无 子 名 


#pragma OrD threadprivate(variable list) 








动作 : 表 中 的 变量 将 变 成 线程 的 私有 变量 。 这 些 变量 预先 在 某 个 未 被 指明 的 地 点 曾 被 初 
始 化 。threadprivate 命 令 应 在 任何 并 行 构造 前 调用 ， 而 已 被 定义 的 
threadprivate 变量 , 在 从 一 个 并 行 区 到 下 一 个 并 行 区 时 将 保持 不 变 (假定 线 
程 数 固定 )， 即 它们 的 值 可 在 后 继 的 并 行 区 中 使 用 。 

子 旬 : 无 子 句 


C.5 子 铝 


copyin (variable list) 
用 主线 程 中 相应 变量 的 值 赋值 表 中 的 每 个 变量 。 表 中 的 变量 必须 为 
threadprivate 变量 。 该 子 句 可 出 现在 parallel 构 造 中 (因此 ， 也 可 出 现在 
parallel for 和 parallel sections 中 )。 

copyprivate (variable list) 
在 OpenMP 版 本 2 中 加 入 该 子 句 ， 它 只 能 用 在 single 构 造 中 。 在 组 中 的 每 个 成 员 
执行 完结 构 块 后 将 变量 表 中 的 每 个 变量 值 设 置 成 执行 该 单 结构 块 线程 的 值 。 它 提 
供 了 用 共享 变量 向 组 中 成 员 广播 值 的 另 一 种 机 制 。 当 难以 使 用 共享 变量 时 ， 可 使 
用 该 子 句 。 

default (shared or none) 
除了 那些 已 说 明 为 threadprivate (或 const) 的 以 外 ， 子 句 default 
(shared) 指明 所 有 变量 为 共享 变量 。 如 果 有 任何 变量 没有 显 式 地 声明 为 共享 或 
私有 (或 是 它 的 变化 firstprivate 或 lastprivate) 或 没有 出 现在 归 约 子 句 
的 变量 表 中 ， 则 子 名 default (none) 将 产生 一 个 错误 消息 。 当 不 使 用 默认 
(default) 子 名 时， 其 效果 如 同 default (shared) 一 样 。 默 认 子 句 可 出 现 
在 Parallel 构造 中 (因此 ， 也 可 出 现在 parallel for 和 parallel 
sections 中 )。 

firstprivate (variable list) 
将 变量 表 variable_1ist 中 的 变量 创建 为 每 个 线程 的 私有 变量 ， 除 了 这 些 变 量 
被 初始 化 为 主线 程 中 相应 的 变量 值 (在 执行 该 构造 之 前 ) 以 外 ， 其 作用 同 私有 子 
句 中 声明 的 一 样 。 该 子 句 可 出 现在 所 有 命令 中 。 

if (scalar expression) 
如 果 表 达 式 scalar_expression 求 得 的 值 为 0， 则 多 个 结构 块 就 顺序 执行 ， 否 
则 就 并 行 执行 。 这 一 特征 允许 在 运行 时 间 确 定 是 并 行 执行 还 是 顺序 执行 。 该 子 句 
可 出 现在 paralle1l 构 造 中 (因此 ， 也 可 出 现在 parallel for 和 parallel 
sections 中 )。 

nowait 


只 可 使 用 在 for、parallel for 和 sections 构 造 中 。 它 将 使 线程 在 构造 末尾 
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不 等 待 其 他 进程 ， 而 是 允许 它们 完成 计算 后 向 前 执行 下 一 语句 。 
num threads (integer expression) 
在 OpenMP 版 本 2 中 加 入 该 子 句 ， 它 只 能 用 在 parallel 构 造 中 。 如 果 访 子 句 出 现 
它 将 优先 于 其 他 方法 ( 即 omp_set_num threads () 库 函 数 及 环境 变量 
OMP_NUM THREADS ) 去 说 明 线 程 数 ， 并 要 求 由 integer_expression 给 定 线 
程 数 。 
ordered 
仅 使 用 在 for 及 parallel for 构 造 中 ,而且 当 循 环 含有 排序 ordered 命 令 (只 
允许 有 一 个 或 没有 ) 时 必须 使 用 。 除 了 ordered 命 令 需 要 使 用 ordered 子 句 外 ， 
使 用 该 子 句 的 主要 原因 是 为 了 提高 编译 器 的 效率 。 参 见 在 同步 命令 下 的 ordered 
命令 的 动作 部 分 。 
private (variable list) 
将 变量 表 variable_1ist 中 的 变量 创建 为 每 个 线程 的 私有 变量 。 每 个 线程 有 这 
些 变量 的 一 个 个 人 拷贝 。 该 子 名 可 出 现在 所 有 命令 中 。 
reduction (operator : variable list) 
操作 符 可 以 是 十 、 一 、*、 及 、|、^、&&、 或 上 中 的 任何 一 个 。 将 为 每 个 线程 创建 
变量 表 中 每 个 变量 的 一 个 私有 拷贝 ， 并 根据 操作 符 对 这 些 变量 进行 初始 化 (十 
-、|、^、 和 上 初始 化 为 0，*、 廊 人 初始 化 为 1， 而 & 则 初始 化 为 全 1)。 在 构造 执 
行 结束 时 ， 主 线程 保留 每 个 变量 的 初始 值 以 及 使 用 指定 操作 符 而 得 到 的 私有 拷贝 
的 最 终 值 。 除 了 single 以 外 ， 该 子 句 可 出 现在 每 个 子 句 中 。 
schedule (kind, chunk size) 
该 子 句 只 可 使 用 在 for 和 parallel for 构 造 中 ， 且 由 它 定义 循 环 中 的 迭代 如 何 
在 线程 中 分 配 。 参 数 kind 可 以 是 : 
static 
返 代 按 chunk_size 的 块 大 小 进行 分 割 ， 并 静态 地 按 循环 方式 分 配给 线程 。 如 果 
省 略 chunk_size， 则 迭代 近似 地 被 分 割 成 相等 块 大 小 ， 然 后 给 每 个 线程 分 配 一 
块 。 
dynamic 
友 代 按 chunk_size 的 块 大 小 进行 分 割 ， 当 进程 空闲 时 就 分 配给 一 块 。 如 果 省 略 
chunk_size， 就 认为 块 的 大 小 为 1。 
guided 
当 所 指定 的 chunk_size 大 于 1 时 ， 分 配给 线程 的 块 数 以 指数 方式 减少 ， 直 至 块 的 
大 小 变 为 chunk_size。 如 果 chunk_size 等 于 1， 则 每 一 块 的 大 小 近似 地 由 (未 
被 分 配 的 和 迭代 数 ) / (线程 数 ) 给 定 。 如 果 未 指明 chunk_size， 则 便 假设 为 1。 
run time 
由 环境 变量 OMP_SCHEDULE 确 定 调度 (在 run_time 中 ,不 使 用 chunk _size) 
例如 ， 如 果 OMP_SCHEDULE 被 设置 成 “guided, 8”, 以 及 setenv OMP_SCHEDULE 
“guided, 8” kind = guided 以 及 chunk_size =8。 
shared (variable list) 
variable_list 中 的 变量 在 线程 间 共 享 。 每 个 线程 可 访问 这 些 变量 。 该 子 句 可 
出 现在 Parallel 构造 中 (因此 ， 也 可 出 现在 Parallel for 和 Parallel 
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sections 中 )。 
C.6 库 函 数 
使 用 下 面 的 库 图 数 ， 包 括 : 


#inciude <omp.h> 
它 有 两 种 锁 的 类 型 : omp_lock _t 和 omp_nest_lock。 ~ 
1， 执 行 环境 函数 
int omP_get_dynamic (void) 
动作 : 如 果 动 态 调整 使 能 ， 就 返回 非 0 值 ， 否 则 返回 0。 
参数 : 无 
int omp_get_nested(void) 
动作 : 如 果 峰 套 并 行 化 使 能 ， 就 返回 非 0 值 ， 否 则 返回 0。 
参数 : 无 


int om get_num threads (void) 























动作 : 当 在 并 行 区 被 调用 时 返回 线程 组 中 当前 的 线程 数 。 
参数 : 无 


int omp_get_max_ threads (void) 











动作 : 如 果 遇 到 不 带 num_threads 子 句 的 并 行 区 就 返回 组 中 可 用 的 最 大 线程 数 。 
参数 : 无 


int omp_get_num procs (void) 








动作 : 返回 程序 可 用 的 处 理 器 数 。 
参数 : 无 | 


int omp_ in parallel (void) 


动作 : 如 果 在 并 行 区 中 被 调用 时 就 返回 非 0 值 ， 否 则 返回 0。 
参数 : 无 


void omp_set_dynamjc(int dynamic_threads) 

















动作 : 如 果 dynamic_threads 设 置 为 非 0 值 ， 则 在 程序 执行 过 程 中 可 改变 线程 数 以 达到 
最 好 的 系统 利用 率 (动态 调整 )。 如 果 dynamic_threads 设 置 为 0， 则 该 特征 失 
效 。 在 并 行 区 期 间 实际 的 线程 数 是 固定 的 。 

参数 : dynamic_threads 失效 /使 能 特征 (0/ 非 0) 





void omp. set_nested(int nested) 
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动作 : 如 果 nested 设 置 为 非 0 值 ， 就 使 能 任 套 并 行 性 。 如 果 nested 设 置 为 0， 则 该 特征 
失效 并 由 当前 线程 顺序 化 和 执行 出 套 并 行 区 。 
参数 : nested 失效 /使 能 特征 (0/ 非 0 ) 


void omp_set. num threads (int num threads) 








动作 : 设置 默认 线程 数 供 后 继 并 行 区 使 用 (除非 存在 num_threads 子 句 )。 
参数 : num threads 线程 数 


int omp_thread num(void) 








动作 : 返回 线程 的 线程 数 。 线 程 数 编号 从 0 到 omp_get_num_threads ( )~1， 主 线程 的 
线程 号 为 0。 » 

参数 : 无 

2. 锁 函 数 

这 些 函 数 用 来 处 理 锁 变量 。 它 们 成 对 编组 ， 一 个 用 作 简 单 锁 ， 其 形式 为 omp_lock_t， 

另 一 个 用 作 伐 套 锁 ， 形 式 为 omp_nest_lock。 它 们 有 相同 的 参数 ， 锁 变量 。 





void omp,_init_ lock{omp_lock_t *lock) 
void omp_init nest_lock(omp nest_lock_t *lock) 


动作 :分配 和 初始 化 锁 (对 简单 锁 初始 化 为 开锁 ， 对 做 套 锁 初 始 化 为 0)。 


void omp_destroy_lock (omp_lock_t *1ock) 
void omp_destroy nest_lock(omp nest lock t *]lock) 











动作 : 不 初始 化 锁 〈 退 分 配 并 释放 锁 ) 。 


void omp_set_lock(omp_lock_t *1ock) 
void omp_set_nest_lLock (cmp_nest_、lock _t *lock) 








动作 : 阻塞 线程 直至 所 指明 的 锁 可 用 。 然 后 上 锁 ， 线 程 继续 执 行 。 对 筷 套 锁 ， 阻 塞 线程 
直至 所 指明 的 锁 可 用 ， 芳 该 锁 已 为 线程 拥有 则 将 代 套 计数 值 加 1 。 





int omp_test_lock (orp_1lLock _t *Jock) 
int omp. test_nest_lock(omp nest_lock t *lock) 





-动作 : 如 可 能 的 话 ， 设 置 锁 。 对 简单 锁 ， 若 可 置 位 锁 便 返 回 一 个 非 09， 否 则 返回 零 。 对 向 
套 锁 ， 若 可 置 位 锁 ， 该 函数 便 返 回 新 的 嵌 套 计数 值 ， 否 则 返回 0 


void omp_unset _ lock (omp lock t *lock) 
void omp unset nest_lock (omp_nest_lock t *lock) 








动作 : 线程 释放 对 锁 的 拥有 。 对 供 套 锁 ， 则 将 嵌 套 计数 值 减 1。 
3. 定时 


以 下 的 函数 是 在 OpenMP 版 本 2 中 增加 的 ， 其 功能 类 似 于 MPI 中 的 定时 例 程 。 





double omp.get_wtick{void) 
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动作 : 返回 连续 时 钟 记 号 间 的 秒 数 。 
参数 : 无 


double omp_get_wtime (void) 











动作 : 返回 自 过 去 某 个 时 间 开 始 所 花费 的 时 钟 时 间 。 
参数 : 无 


C.7 环境 变量 


在 执行 之 前 设置 环境 变量 ， 典 型 地 使 用 setenv 语 句 。 
OMP_DYNAMIC 一 一 使 能 /禁止 动态 调整 (TRUE/FALSE) 
OMP_NESTED 一 一 使 能 /禁止 峰 套 并 行 化 (TRUE/FALSE) 
OMP_NUM_THREADS 一 一 用 所 指明 的 一 个 整数 设置 线程 数 
OMP_SCHEDULE 一 一 用 所 指明 的 一 个 字符 串 设置 运行 时 调度 类 型 
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符号 

O notation (大 QO 表示 法 ) 65 
9 notation (8B 表示 法 ) 66 
Qnotation (表示 法 ) 66 


A 


Acceleration anomaly ( 加速 异 常 )，410 

Acknowledgment message (确认 消息 )，47 
termination detection (终止 检测 )，211 

Adaptive quadrature ( 自 适 应 积分 )，125 

Address (地 址 )，14 

Adjacency list (邻接 表 )，216 

Adjacency matrix (邻接 矩阵 )，216 

Allgather (全 集中 )，178 

All-to-all routine (全 部 到 全 部 例 程 )，121，323 

Amdahl's law( 阿 姆 达尔 (Amdahj) 定律 )，8 

Asynchronous iterative method ( 异步 迭代 方法 )，192 

Atomic instruction (原子 命令 )，242 


B 


Backtracking ( 回溯)，409 
Bandwidth (带宽 )，16 
Barnes-Hut algorithm (算法 )，128 
Barrier ( 障 栅 )，163 

bnutterfly ( 蝶 形 }，167 

counter implementation (计数 器 实现 )，165 

linear (线性 )，165 

memory (存储 器 )，264 

MPI (MPI)，164 

OpenMP (OpenMP), 257 

shared memory (共享 存储 器 )，246 

tree implementation ( 树 实现 )，167 
Beowulf cluster (机 群 )，33 
Bernstein's conditions (条 件 )，250 
Best-first search (最 佳 优 先 搜索 ) ，408 
Binary exchange algorithm (二 元 交换 算法 )，397，398 
Binary tree network (二 叉 树 网 络 )，20 
Bin-packing ( 装 箱 问 题 )，202 
Bisection bandwidth (对 分 带宽 )，17 
Bisection width (对 分 宽度 )，17 


Bitmap (位 图 )，81 
Bitonic mergesort ( 双 调 谐 归 并 排序 )，317 
Bitonic sequence ( 双 调 谐 序列 )，317 
Block allocation ( 块 分 配 ) ，179 
Block partition ( 块 划分 )，187 
Blocking routine (阻塞 例 程 ),，47，48，56 
Bounding function (限界 销 数 )，408 
Branch-and-bound search (分 支 限 界 搜索 )，407，409 
Breadth-first search (广度 优先 搜索 )，408 
Broadcast (广播 )，49 

communication time (通信 有 时间)，69 
Broadcast routine (广播 例 程 )，59 
Bubble sort ( 冒 泡 排序 ) ，307 
Bucket sort ( 桶 排序 )，117，333 
Buffered mode, MPI (缓冲 方式 )，MPI， 58 
Busy waiting (人 忙 等 待 )，241 “ 
Butterfly 〈 蝶 形 )，167，398 


C 


Cache coherence protocol (高 速 缓存 一 致 性 协议 }，258 
Cache memory (高 速 缓冲 存储 器 )，15，258 
Cannon's algorithm (Cannon 算 法 )，348 
Cellular automata (细胞 自动 机 )，190 
Chaotic relaxation (无 序 松弛 )，192 
Circuit switching (电路 交换 )，22 
Closed list (封闭 表 )，409 
Cluster computing (机 群 计算 )，26 ~ 38 
Cluster of workstations (工作 站 机 群 )，27 
Communication latency (通信 时 延 )，16 
Communication time (通信 时 间 )，13，62 
Communicator (通信 子 )，53，55 
Compare-and-exchange operation (比较 和 交换 操作 )， 
304 
Computation time (计算 时 间 )，13 
Computation/communication ratio (计算 /通信 上 比 )，13， 
63, 67 
Computational time (计算 时 间 )}，62 
Condition variable (条 件 变量 )，244 

Pthread (Pthread), 245 
Contrast stretching (对 比 度 扩 展 )，372 
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Convolution ( 卷 积 )，367，390 
Cosmic cube (Cosmic 立 方 体 )，19 
Cost (成 本 /代价 )，68 
interconnection network (互联 网 络 )，16 
Cost-optimal (代价 -优化 )，68 
Counting sort (计数 排序 ) ，328 
COW. See Cluster of workstations (COW ， 见 工作 站 机 群 ) 
Critical section (临界 区 )，239，240 
OpenMP (OpenMP), 257 
Cross-correlation (互相 关 )，378 
Crossover ( 父 叉 ), 411, 416 
Cut-off function (修剪 图 数 )，408 
Cut-through (直通 )，22 
Cyclic allocation (循环 分 配 )，179 


D 


Data parallel computation (数据 并 行 计算 )，170 
Data partitioning (数据 划分 )，106，146，148，179， 
186，306 
Dead node (死结 点 )，409 
Deadlock ( 死 锁 )，23，169，189，242 
Deadiy embrace (死亡 拥抱 )，242 
Debugging (调试 )，70 ~ 72 
Deceleration anomaly (减速 异常 )，410 
Dense matrix (稠密 矩阵 )，352 
Dependency analysis (相关 性 分 析 ) ，250 
Depth-first search (深度 优先 搜索 )，408 
parallel (并 行 )，409 
Detached thread (分 离线 程 ) ，237 
Detrimental anomaly (不 利 蜡 常 )，411 
DFT,， (参见 离散 傅 里 叶 变换 )，388 
Diagonally dominant array (对 角 占 优 和 矩阵 )，175 
Diameter (直径 )，17 
hypercube ( 超 立方 体 )，18- 
mesh (网 格 )，17 
Diminished prefix sum (减少 前 级 求 和 )，332 
Discrete Fourier transform (离散 健 里 上 时 变换 )，388 
Distributed shared memory (分 布 式 共享 存储 器 )，24， 
279 ~ 281 
hardware DSM system (硬件 DSM 系 统 )，282 ~ 283 
software DSM system (软件 DSM 系 统 )，281 ~ 282 
Divide and conquer (分 治 )，111 
M -ary (M 路 ),，116 
Domain decomposition ( 域 分 解 )，106 
DSM， 参 见 分 布 式 共 享 存储 器 
Duplicated computations, for reduced message passing 
(重复 的 计算 ， 为 减少 消息 传递 )，306 
Dynamic process creation (动态 进程 创建 )，43 ，80 
Dynamic task assignment ( 动态 任务 分 配 )，90 


Dynamic tree (动态 树 ) ，408 
E 


E-cube routing algorithm (E 立 方 体 路 由 算法 )，19 
Edge detection (边缘 检测 )，371，379 
Edge detection masks (边缘 检测 掩 码 )，380 
Edge, graph ( 边 ,图 ), 214 
Efficiency (效率 ),， 7 
Eight-puzzle (8 拼 块 )，407 
Elapsed time (运行 时 间 )，73 
Embarrassingly parallel computation ( 易 并 行 计算 )，79 
E-node (E 结 点 )，409 
Enumeration sort ( 枚 举 排序 ) ，327 
Ethernet (以 太 网 )，28 
Event synchronization (事件 同步 )，260 
See also condition variable (也 可 参见 条 件 变量 ) 
Execution time (执行 时 间 )， 
measuring (测量 )，72 
parallel (并 行 )，62 


F 


False sharing, in caches ( 假 共 享 ， 在 高 速 缓 存 中 ) ，259 
Fast Fourier transform ( FFT ) 快速 传 里 叶 变 换 (FFT ) ， 
395 
Fat tree network ( 粗 树 网 络 )，20 
Fifteen-puzzle (15 拼 块 )，407 
Finite difference method (有 限 差分 方法 )，182，357 
Fitness, in genetic algorithms (适应 度 ， 在 遗传 算法 中 )， 
412 
Flit 片 (flow control digit， 流 控 位 )，22 
Folded network ( 折 秋 的 网 络 )，17 
forall statement (forall 语 句 )，170，249 
FORK (分 叉 )，232 
Fourier series ( 傅 里 时 级 数 )，387 
Fourier transform ( 健 里 时 变换 )}，387，388 
discrete (离散 )，388 
fast (快速 )，395 
for image processing (用 于 图 像 处 理 )，389 
inverse (逆向 )，388 
scale factor (比例 因子 )，389 
transpose ( 转 置 )，390 
Frequency domain ( 频 域 )，371 
Frequency filter (频率 滤波 器 )，141 
Functional decomposition (功能 分 解 )，106，140 


G 


Game of Life (生命 游戏 )，190 
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Gather (集中 )，50，59 
communication time (通信 和 时间)，69 
Gaussian elimination (高 斯 消去 )，353 
Gauss-Seidel (高 斯 ~ 塞 德 尔 ) 
iteration ( 适 代 )}，183 
relaxation (松弛 )，360 
successive overrelaxation (连续 过 度 松弛 )，363 
Genetic algorithm (遗传 算法 )，411 ~ 423 
constraints (约束 )，415 
crossover (交叉 )，411，416 
distributed processor system (分 布 式 处 理 器 系统 )， 
423 
fitness (适应 度 )，412 
genes (基因 )，417 
individuals (个 体 )，412 
island model (孤岛 模型 ) ，420 
migration (迁移 )，419 
mutation 《突变 )，411，412，417 
selective pressure (选择 压力 )，415 
shared memory (共享 存储 器 }，422 
stepping stone model ( 跳 石 模型 )，420 
termination (终止 )，418 
tournament selection ( 竞赛 选择 ) ，416 
Geometrical transformations (几何 变换 )，81 
Gflop (10 亿 次 浮 点 运算 (Gflop)), 4 
Ghost points (幻象 点 ) ，188 
Gradient direction (梯度 方向 )，379，385 
Gradient magnitude (梯度 幅 值 ) ，379 
Grand challenge problem (巨大 挑战 性 问题 )， 3 
Graph (图 ), 214 
directed (有 向 )，214 
representation (表示 )，215 
undirected (无 向 )，215 
Gray level ( 灰 度 级 )，370 
reduction (减少 )，373 
Gray scale( 灰 度 }，370 
Grayscale ( 灰 度 )，81 
Grid computing (网 格 计算 )，36 
Gustafson's law (Gustafson 定 律 )，12 


H 


Heap ( 堆 ), 410 
Heavyweight process (重量 级 进程 )，233 
Hill-climbing ( 扑 山 )，424 

banking application (金融 业务 应 用 )，427 
Histogram (直方 图 )，373 
Hough transform (〈 霍 夫 变换 )，371，383 ~ 387 


Hypercube network ( 超 立 方 体 网 络 )，18 
Hyperquicksort ( 超 快速 排序 ) ，326 


Image processing (图 像 处 理 )，81 


contrast stretching 《对比度 扩 展 }，372 
edge detection (边缘 检测 )，371 
global operations (全 局 操作 )，372 
gray level reduction ( 灰 度 级 减少 )，373 
histogram (直方 图 )，373 

Laplace operator ( 拉 普 拉 斯 算 子 )，382 
local operations (局 部 操作 )，372 
low-level (低层 )，370，371 

noise cleaning (噪声 祖 除 )，371 

noise reduction (噪声 减少 )，371，374 
point processing (点 处 理 )，372 
sharpening ( 锐 化 )，374 

smoothing (平滑 )，374 

thresholding 〈 阔 值 化 )，372 


Insertion sort (插入 排序 ) ，148 
Instruction-level parallelism (指令 级 并 行 )，249 
Intercommunicator ( 外 通信 子 )，56 
Interconnection network (互联 网 络 )，14 
Internet protocol (网 际 协议 ) 


version 4 (IPv4) (版 本 )4 (IPv4)，29 
version 6 (IPv6) (版 本 )6 (IPv6)，31 


Intracommunicator (内 通信 子 )，56 

Invalidate policy (使 无 效 策略 )， 在 DSM 中 ，283 
Inverse Fourier transform ( 逆 傅 里 叶 变换 )，388 
IP address (IP 地 址 })，29 

Island model (孤岛 模型 )，420 

Iteration (迭代 )， 


termination (终止 )，175 


J 


Jacobi ( 雅 可 比 )， 


overrelaxation (过 度 松 弛 )，363 


Jacobi iteration 〈 雅 可 比 和 迭代 )，175，357 


convergence speed (收敛 速度 ) ，359 


JOIN (JOIN (接合 ) )，232 


K 


Knapsack problem (背包 问题 )，406 


L 


LAM, (LAM), 52 





350 用 绚 


Laplace operator ( 拉 普 拉 斯 算 子 )，382 
Laplace’s equation ( 拉 普 拉 斯 方程 )，182，357，358 
Latency (时 延 )，16，63 
pipeline (流水 线 )， 142 
Latency hiding (时 延 隐藏 )，64 . 
Lazy release consistency (滞后 松弛 一 致 性 )，285 
Left-to-right routing (从 左 到 右 的 路 由 )，19 
Linear congruential generator (线性 同 余生 成 器 )，97 
Linear equations (线性 方程 )， 
matrix relationship (矩阵 关系 )，342 
solving (求解 )，352 ~ 356 
solving by iteration (用 迭代 法 求解 )，174 ~ 180 
solving system with pipeline (流水 线 求解 系统 )， 
154~ 157 
upper-triangular system (上 三 角 系 统 )，154 
Live node ( 活 结 点 )，409 
Livelock ( 活 锁 ) ，23 
Load balancing (负载 平衡 )，90，201 
centralized (集中 式 )，203 
centralized dynamic (集中 式 动 态 )，204 
decentralized (分 散 式 )，203 
decentralized dynamic (分 散 式 动态 )，205 
dynamic (动态 )，203 
line structure (线形 结构 )，207 
pipeline (流水 线 )，207 
static (静态 )，202 
termination (终止 )，204 
Lock ( 锁 )，240 
mutex ( 互 斥 )，268 
Pthread (Pthread), 242 
read/write ( 读 / 写 )，275 


M 


MAC， 参见 媒体 访问 控制 器 
Mandelbrot set ( 曼 德 勃 罗 特 (Mandelbrot) 集 )，86 
Mapping problem (映射 问题 )，202 
M-ary tree (MM 又 树 )，20 
Master/slave ( 主 /从 )，80， 
Master-slave ( 主 - 从 )， 

DFT implementation (DFT 实现 )，392 
Matrix ( 乍 阵 )，340 

addition {加 )，340 

dense (稠密 )，352 

multiplication ( 乘 )，341 

sparse ( 稀疏 )，352 
Matrix multiplication (和 焦 阵 乘法 )， 

block ( 块 )，343 

Cannon's algorithm (Cannon 算 法 )，348 


107，146 


mesh implementations (网 格 实现 )，348 
Tecursive implementation (递归 实现 )，346 
sequential (顺序 )，342 
Strassen's method (Strassen 方 法 )，367 
systolic array 《脉动 阵列 })，350 
two-dimensional pipeline (二 维 流水 线 )，350 
Matrix transpose (矩阵 转 置 )，121 
Matrix-vector multiplication 〈 先 阵 疝 量 乘法 )，341，351 
for Discrete Fourier transform (用 于 离散 传 里 叶 变换 )， 
393 
Mean, for image smoothing (平均 值 ， 用 于 图 像 平滑)， 
374 
Media access controller (媒体 访问 控制 器 )，31 
Median, for image smoothing (中 值 ， 用 于 图 像 平滑 )， 
375 
Memory barrier (存储 器 障 栅 )，264 
Memory consistency (存储 器 一 致 性 )，284 
relaxed (松弛 的 )， 285 
Memory fence (存储 器 篱 芭 )，264 
Merge, sorted lists ( 归并， 已 排序 序列 )，316 
Mergesort (归并 排序 )，311 
potential speedup (潜在 加 速 比 )，304 
Mesh (网 格 )，17 
Message buffer ( 消息 缓冲 )，48 
Message latency ( 消息 时 延 )，17，63 
Message passing (消息 传递 )， 
blocking (阻塞 )，47，48 
completion (完成 )，56 
globally complete (全 局 完成 )，56 
locally blocking (本 地 阻塞 )，48 
locally complete ( 局 部 完成 )，56 
nonblocking (〈 非 阻塞 )， 47，48 
synchronous (同步 )，46 
Message tag ( 消息 标记 )，48，56 
Message-Passing Interface ( 消息 传递 接口 )，27，52 ~ 60 
Message-passing multicomputer (消息 传递 多 计算 机 )， 
16 
Metacomputing (元 计算 )，36 
MIMD，( 见 多 指令 流 多 数据 流 )， 
MISD，( 见 多 指令 流 单数 据 流 )， 
Monitor (监控 程序 )，244 
Java (Java), 270 
Monte Carlo method (Monte Carlo (蒙特 卡 罗 ) 法 )，93， 
94 
hill climbing (有 爬山)，424 
Moore's algorithm (Moore 摩尔 算法 )，217 
MPI，( 见 消息 传递 接口 ) 
MPICH (MPICH), 52 
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MPMD，( 见 多 程序 多 数据 ) 
Moulticast (多 播 )，49 
Multicomputer (多 计算 机 )，16 
Multigrid method (多 网 格 法 )，364 
Multiple instruction stream-multiple data stream (多 指令 
流 多 数据 流 )，25 
Multiple instruction stream-single data stream (多 指令 流 
单数 据 流 )，26 
Mnultiple program-multiple data (多 程序 多 数据 )，26， 
44 
Multiple reader/multiple writer in DSM (多 阅读 器 /多 写 
和 人 器， 在 DSM 中 )，283 
Multiple reader/single writer, in DSM (多 阅读 器 / 单 写 人 
器 ， 在 DSM 中 )，283 
Mutation (突变 ),，411，412,，417 
Moutual exclusion ( 互 斥 )，240 

synchronization (同步 )，260 
Mutually exclusive lock variable(mutex) ( 互 斥 锁 变量 
(mutex)，242，268 


N 


Natural order (自然 顺序 )，181，358 
N-body problem (N 体 问题 ),，5，126 ~ 131 
Network interface card (网 络 接 口 卡 )，31 
Network latency (网 络 时 延 )，16 
Network of workstations (工作 站 网 络 }，27 
NIC， 见 网 络 接 口 卡 
Non-blocking receive ( 非 阻 寨 接 收 )，209 
Nonblocking routine ( 非 阻塞 例 程 )，47，48，57 
Non-uniform access ( 非 均 匀 存 取 )，231 
Non-uniform memory access ( 非 均 匀 存 储 器 存 取 )，15 
Normal representation (标准 表达 式 )，385 
NOW ， 见 工作 站 网 络 
n-queens problem (和 皇后 问题 ) ，406 
NUMA， 见 非 均 勺 存储 器 存 取 
Numerical integration (数值 积分 )，122 ~ 125 
adaptive quadrature ( 自 适 应 积分 }，125 
Monte Cario method (蒙特 卡 罗 法 )，94 
static assignment (静态 分 配 )，123 
trapezoidal method (梯形 法 )，123 


O 


Qccam，(Occam 诸 言 )，42 

Octtree ( 八 叉 树 )，116，128 

Odd-even mergesort (奇偶 归并 排序 )，316 
Odd-even transposition sort (奇偶 互 换 排序 )，310 
Omega network (Omega 网 络 )，21 

Open list (开放 表 )，409 


OpenMP (OpenMP), 15, 232, 253 ~ 257 

Orthogonal recursive bisection ( 正 交 递 好 二 分 法 )，130 

Oscar(Open Source Cluster Application Resources) ( 开 
放 源 机 群 应 用 资源 )，37 

Overlapping connectivity network (重合 互通 网 络 )，34 

Overrelaxation (过 度 松 弛 )，363 

Overrelaxation parameter (过 度 松弛 参数 )，363 


P 


P operation (P 操作 ) ,242 
Packet switching ( 包 交 换 )，22 
par construct (par 构 造 )，249 
Parallel computer (并 行 计算 机 )，5，13 
Parallel execution time (并 行 执行 时 间 )，62 
Parallel programming (并 行程 序 设计 ),， 5 
Parallel slackness (并 行 不 完善 性 )，65 
Parallel time complexity ( 并行 时 间 复 杂 性 )，67 
sorting algorithms (排序 算法 ) ，304 
Parallel virtual machine (并 行 虚 所 机 }，27，51 
Parallelizing compiler (并行 化 编译 器 )，42，232，250 
Parameter space (参数 空间 )，384 
Partial pivoting (部 分 选 主 元 ) ，353 
Partitioning ( 划分)，106 
cyclic-striped (循环 条 状 的 )，356 
strip (条 状 的 )，355 
Ping-pong method (乒乓 方法 )，73 
Pipeline (流水 线 )， 
adding numbers (数字 相 加 )，145 
for discrete Fourier transform (离散 傅 里 叶 变换 )， 
393 
frequency filter (频率 过 滤器 ) ，141 
latency (时 延 )，142 
load balancing ( 负载 平衡 ) ，207 
for matrix multiplication (和 矩阵 乘法 ) ，350 
prime number generation (生成 质数 )，152 
solving system of linear equations (线性 方程 组 求解 )， 
155 
sorting numbers ( 数 的 排序 )，148 
Pipelining 《流水 化 )，140 
Pivot ( 枢 轴 )， 
quicksort (快速 排序 )，313，325 
Pixel (像素 )，370 
Pixmap (像素 图 )，81，371 
Point processing (点 处 理 )，372 
Poisson's equation ( 泊 松 方程 )，357 
Prefix sum problem (前 级 求 和 问题 )，172 
Prewitt operator ( Prewitt 算 子 )，381 
Prime number generation (生成 质数 )，152 ~ 154 
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Priority queue (优先 队列 ) ，409 

using a heap (使 用 堆 )，410 
Problem size (问题 规模 )，11 
Process (进程 )，16，43，203 

heavyweight (重量 级 )，233 

root ( 根 )，50 
Process creation (进程 创建 )， 

dynamic (动态 )，43，80 

static (静态 )，43，80 
Processor consistency ( 处理 器 一 致 性 )，264 
Processor farm (处 理 器 农庄 )，90，204 
Processor-time product (处 理 跨 -时 间 乘 积 )，68 
Process-time diagram (进程 -了 时间 图 )，?1 
Profile, program (特性 形象 ， 程 序 )，74 
Program order (程序 次 序 )，263 
Pseudocode constructs ( 伪 代 码 构 造 )，60 
Pthread (线程 )，235 
PVM (PYM)， 见 并 行 虚拟 机 


Q 


Quadtree (四 叉 树 })，116，128 
Quicksort (快速 排序 )，313，333 
hypercube ( 超 立 方 体 )，323 
pivot ( 枢 轴 )，313，325 
potential speedup (潜在 加 速 比 )，304 
workpool (工作 池 )，315 


R 


Radix sort (基数 排序 )，331 
Random number generator (随机 数 生 成 器 )， 
iinear congruential generator (线性 同 余生 成 器 )，97 
parallel ( 并行)，97 
SPRNG (SPRNG )，98，99 
Random polling algorithm (随机 轮 询 算法 )，207 
Randomized algorithm (随机 算法 )，202 
Rank sort( 秩 排序 )，327 
Read/write lock ( 读 / 写 锁 ) ，275 
Ready mode, MPI ( 就 绪 方式 )，MPI，58 
Receive routine (接收 例 程 ) ，46 
MPI (MPI), 56 
non-blocking 《 非 阻塞 )，209， 
synchronous (同步 )，46 
Receiver-initiated task transfer( 接收 器 启动 的 任务 传输 )， 
206 
Recursive bisection (递归 对 分 )，202 
Red-black checkerboard 《 红 黑 棋盘 )，362 
Red-black ordering ( 红 黑 排序 )，361 
Reduce ( 归 约 )，51，109 


Release consistency (释放 一 致 性 )，285 
Rendezvous (会 合 )，47 
Replicated worker (复制 工作 者 )，204 
Ring termination algorithm ( 环 终止 算法 )}，212 
Root process ( 根 进程 )，50 
Round robin algorithm ( 循环 算法 )，202，207 
Routing algorithm (路 由 算法 )， 

hypercube ( 超 立 方 体 )，19 
Row major order ( 行 主 序 )，184 


S 


Safe communication (安全 通信 )，55 
Safe message passing (安全 消息 传递 )，189 
Sample sort (采样 排序 )，333 
Scalability( 可 扩展 性 )，11 
Scalable Pseudorandom Number Generator(SPRNG) (可 
扩展 伪 随 机 数 生成 器 ) (SPRNG )，98，99 
Scatter (分 散 )，$0，59，109 
Scheduling (调度 )，202 
Semaphore (信号 量 )，242 
binary (二 元 的 )，243，265 
Send routine (发 送 例 程 )，46 
blocking (阻塞 )，56 
MPI (MPI), 56, 57, 58 
nonblocking (〈 非 阻塞 )，57 
synchronous (同步 ),46 
Sender-initiated task transfer (发 送 器 启动 任务 传输 )， 
206 
Sequential consistency (顺序 一 致 性 )，262 
Shared memory (共享 存储 器 )，14 
Shared virtual memory (共享 虚拟 存储 器 )，24 
Shared memory multiprocessor (共享 存储 器 多 处 理 机 )， 
14, 230 
programming (程序 设计 )，14 
Shearsort (扭曲 排序 )，321 
image processing (图 像 处 理 )，376 
Shortest path problem 〈 最 短路 径 问 题 )，214 ~ 223 
Sieve of Eratosthenes ( 埃 拉 托 色 尼 (Eratosthenes ) 筛选 )， 
152 
SIMD (SIMD,， 见 单 指令 流 多 数据 流 ) 
Single address space (单一 编 址 空间 )，231 
Single instruction stream-multiple data stream ( 单 指令 流 
多 数据 流 )，25 
Single instruction stream-single data stream ( 单 指 今 流 单 
数据 流 )，25 
Single instruction-multiple data ( 单 指令 多 数据 )，170 
Single program -multiple data (单程 序 多 数据 )，26，44， 
54, 80, 123, 171, 234 
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Single reader/single writer in DSM ( 单 阅 污 器 / 单 写 人 


器 )，DSM，283，292 
SISD (SISD， 见 单 指令 流 单数 据 流 ) 
SMP (SMP， 见 对 称 多 处 理 机 ) 
Sobel operator ( Sobel 算 子 ) ，381 
Sorting (排序 )，303 
pipeline (流水 线 )，148 
Sorting algorithms (排序 算法 ) 
bitonic mergesort( 双 调谐 归并 排序 )，317 
bubble sort ( 冒 泡 排序 ) ，307 
bucket sort ( 桶 排序 )，117，333 
cluster (机 群 )，333 
counting sort (计数 排序 ) ，328 
enumeration sort ( 枚 举 排 序 ) ，327 
hyperquicksort ( 超 快 速 排序 ) ，326 
insertion sort (插入 排序 )，148 
mergesort (归并 排序 )，304，311 
odd-even mergesort (奇偶 归并 排序 )，316 
Sorting algorithms 
odd-even transposition (奇偶 瑟 换 排序 )，310 
parallel time complexity (并 行 时 间 复 杂 性 )，304 
quicksort (快速 排序 )，304，313，333 
radix sort (基数 排序 ) ， 331 
rank sort ( 秩 排序 )，327 
sample sort (采样 排序 ) ，333 
sequential time complexity (顺序 时 间 复 杂 性 )，304 
shearsort (扭曲 排序 )，321，376 
stable (稳定 的 )，328 
two-dimensional (一 维 )，321 
Space complexity (空间 复杂 性 ) ，65 
Space-time diagram (时 空 图 )，71，142 
Sparse matrix (稀疏 知 阵 )，352 
Spatial domain (空间 区 域 )，371 
Spawn (派生 )，45 
Speedup factor (加 速 系 数 )，6，63 
scaled (比例 )，12 
Spin lock ( 自 旋 锁 ) ，241 
SPMD (SPMD ， 见 单程 序 多 数据 ) 
Stable sorting algorithm (稳定 的 排序 算法 ) ，328 
Standard mode，MPI (标准 模式 ，MPI)，58 
Startup time ( 启动 时 间 )，17，63 
State space tree (状态 空间 树 ) ，407 
Static process creation (静态 进程 创建 )，43，80 
Static task assignment (静态 任务 分 配 )，89 
Static tree (静态 树 ) ，408 
Stencil (模板 )， 
13-point (13 点 )，363 
5-point (5 点)，363 


9-point (9 点 )，363 
Stepping stone model ( 跳 石 模型 ) ，420 
Store-and-forward packet switching (存储 转发 包 奖 换 )，22 
Strassen's method (Strassen 方 法 )，367 
Strict consistency (严格 一 致 性 )，284 从 
Strip partition (条 状 划分 )，187 
Submatrix ( 子 和 矩阵)，343，345 
Successive refinement (连续 求 精 )，423 
Superlinear speedup( 超 线性 加 速 比 )，7 

Symmetrical multiprocessor ( 对称 多 处 理 机 )，34 
cluster (机 群 )，281，295，334 
Synchronization (同步 ) 

event (事件 ) ，260 

local (本 地 )，169，180 

mutual exclusion (万 斥 )，260 

OpenMP (OpenMP), 256 
Synchronous computation 《同步 计算 )，170 ~ 174 

fully (完全 )，163 
Synchronous computations 《同步 计算 ) 

partial (部 分 )，191 ~ 192 
Synchronous iteration (同步 从 代 )，173 
Synchronous message passing (同步 消息 传递 )，46 
Synchronous mode,MPI (同步 方式 )，MPI，58 
Synchronous parallelism ( 同步 并 行 性 )，173 
Synchronous receive routine (同步 接收 例 程 )，46，48 
Synchronous send routine (同步 发 送 例 程 )，46，48 
Systolic array (脉动 阵列 ) 、350 


T 


TCP/IP. See Transmission Control Protocol/Internet 
Protocol (TCP/IP， 见 传输 控制 协议 /网 际 协 议 ) 
Template matching (模板 匹配 )，371 
Termination (终止 ) 
counter method (计数 器 方法 )，92 
Termination conditions (终止 条 件 ) 
distributed detection (分 布 式 愉 测 )，210 
genetic algorithm (遗传 算法 )，418 
Termination detection (终止 检测 ) ，201,203 
fixed energy algorithm (固定 能 量 算 法 ) ，214 
ring termination algorithm ( 环 终止 算法 ) ，212 
tree algorithm ( 树 算法 )，213 
Tflop (万 亿 次 肖 点 运算 )，4 
Thread (线程 )，234 
detached (分 离 的 )，237 
Thread-safe routine (线程 安全 例 程 )，239 
Thresholding ( 阀 值 化 )，372 
Tiff image file (Ti 和 ff 图 像 文件 )，81 
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Time complexity (时 间 复 杂 性 )，65 ~ 68 
Torus (环绕 网 )，17 
Transmission Control Protocol/Internet Protocol (传输 控 
制 协 议 /网 际 协议 )，29 
Transpose ( 转 置 )， 
for Fast Fourier transform (快速 健 里 叶 恋 换 )，397， 
399 
Transpose, use in Fourier transform (变换 ， 用 于 傅 里 叶 
变换 )，390 
Transposition array ( 转 置 ， 数 组 )，322 
Transputer，42，208 
Traveling salesperson problem (旅行 商 问 题 ) ，406 
Tree network ( 树 状 网 }，20 
Twiddle factor( 旋 动 系数 )，391，396 


U 


UMA. ( 见 一 致 存储 器 访问 ) 

Unified Parallel C (统一 并 行 C)，15，248 

Uniform memory access (均匀 存储 器 访问 )，15，231 
Universal fat tree (通用 粗 树 )，20 

Unsafe message passing (不 安全 消息 传递 )，189 

UPC. ( 见 统一 并 行 C) 

Update policy, in DSM (更 新 策略 ， 在 DSM 中 )，283 
Upper-triangular system of linear equations ( 上 三 角 线 性 
方程 组 )，154 

pshot (Upshot), 71 





es 


Utilization-time diagram (时 间 利 用 图 )，71 
V 


V operation (VV 操作 ) ，242 

Vector (向 量 )，341 

Vertex, graph (顶点 ， 图 )，214 

Virtual channel (虚拟 通道 )，23 

Virtual processor (虚拟 处 理 器 }，65 

Virtual shared memory (虚拟 共享 存储 器 )，281 
Visualization tools (可视化 工具 )，71 


W 


Weak consistency 〈 弱 一 致 性 ) ，285 
Weather forecasting (气象 预报 )，4 
Weighted masks (加 权 掩 码 )，377 
Wild card (通配符 )，48，56 
Work pool (工作 池 )，、90，204 
quicksort (快速 排序 )，315 
shortest path algorithm (最 短路 径 算法 ) ，220 
Wormhole routing ( 虫 孔 路 由 )，22 


